Stability AIがArmと提携してスマホ上で音楽生成AIを直接動かす技術を開発

画像生成AI「Stable Diffusion」を開発するAI企業のStability AIは半導体企業のArmと提携し、音楽生成モデル「Stable Audio Open」をArmのCPUで直接実行できるように最適化したと発表しました。ArmのKleidiAIライブラリとStability AIの最先端技術を組み合わせることで、スマートフォン上での音楽生成時間を従来の数分から数秒へと30倍高速化しています。
Stability AI and Arm Bring On-Device Generative Audio to Smartphones — Stability AI
https://stability.ai/news/stability-ai-and-arm-bring-on-device-generative-audio-to-smartphones
On-device Audio Generation Accelerated by 30x with Arm Kleidi - Arm Newsroom
https://newsroom.arm.com/blog/stability-ai-arm-kleidi-text-to-audio-generation
Stable Audio Openは2024年6月に公開されたオープンソースの音楽生成AIモデルで、文章で指示するだけで最長47秒の音楽を生成できます。
無料で使える音楽生成AI「Stable Audio Open」をStable Diffusion開発元が公開、テキストから最長47秒のサウンドトラックを生成可能 - GIGAZINE

このStable Audio Openを従来のスマートフォンのCPU上で直接実行しても、1回の音楽生成に240秒(4分)以上の時間がかかり、実用的なレベルではなかったとのこと。そこで、Stability AIは、Stable Audio Openのモデルを蒸留し、モバイルデバイス向けを想定してより小さなパラメーター数にまで圧縮しました。
さらにArmによれば、ArmのCPUに特化した「マイクロカーネル」と呼ばれるパフォーマンス重視のルーチンを提供するKleidiAIライブラリを、XNNPackやExecuTorchと統合したとのこと。XNNPackはモバイルデバイス向けに最適化された深層学習演算ライブラリ、ExecuTorchはモバイルデバイス上でのモデル実行を効率化するフレームワークで、この統合により8ビット整数行列乗算が大幅に高速化されたとArmは報告しています。
加えて、Armv9アーキテクチャのCPUコアが持つ特性を活かした最適化も行われました。Armv9は機械学習ワークロード向けの拡張命令セットを備えており、これらを活用することでより効率的な実行が可能になります。
これらの最適化技術を組み合わせた結果、オンライン環境にないスマートフォン上でも、Stable Audio Openを直接動作させることが可能になりました。たとえば、同じArmベースのCPUで実行した場合、音楽の生成時間が240秒から8秒未満へと30倍の高速化を達成したとのこと。また、11秒の音声クリップ生成で特に劇的なパフォーマンス向上が実現されたとArmはアピールしています。
スマートフォン上のローカル環境で動作するStable Audio Openで音楽を生成するところが以下のムービー。
Arm and Stability AI Audio Generation Demo - YouTube

Stability AIのプレム・アッカラジューCEOは、「より多くのプロフェッショナルでクリエイティブな人々やビジネスが、生成AIを制作パイプラインに取り入れるようになればなるほど、私たちのモデルとワークフローがクリエイターが創造できるあらゆる場所で構築され、利用可能であることが重要になります。Stability AIがArmとパートナーシップを組むのはまさにこの理由からです。Armはサーバーからスマートフォンまでエコシステム全体に広く普及しており、また人気のあるすべてのフレームワークにおいてKleidiAIライブラリをソフトウェアスタックに統合することでAIモデルを加速する取り組みを行っていることから、今回の取り組みは当然の選択でした」とコメントしています。

なお、2025年3月3日から6日までスペインのバルセロナで開催されているモバイルデバイス見本市「MWC 2025」のArmブースで、Armv9 CPUを搭載したスマートフォン上でStable Audio Openをローカル動作させる実演展示を行っているとのことです。
・関連記事
Stability AIが1本の動画から8つの異なるアングルやビューの動画を生成するAIモデル「Stable Video 4D」を発表 - GIGAZINE
Stability AIが画像から3Dモデルを生成できるAI「TripoSR」を発表、簡単に使えるデモも公開されてたので試してみた - GIGAZINE
Stability AIが1本の動画から8つの異なるアングルやビューの動画を生成するAIモデル「Stable Video 4D」を発表 - GIGAZINE
高速かつ高品質&家庭用グラボでも簡単に追加学習可能な画像生成AIモデル「Stable Cascade」をStability AIが発表 - GIGAZINE
Stability AIが新コーディング補助AI「Stable Code 3B」をリリース、少ないパラメーター数ながらMetaの「Code Llama 7B」と同等の性能を発揮 - GIGAZINE
Stability AIが画像を認識して日本語で回答してくれるAIモデル「Japanese InstructBLIP Alpha」をリリース - GIGAZINE
・関連コンテンツ
in モバイル, ソフトウェア, Posted by log1i_yk
You can read the machine translated English article Stability AI partners with Arm to develo….