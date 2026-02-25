無料で日本語もサポートしリアルタイム音声アプリをWhisperより高精度で開発できるオープンソースAIツールキット「Moonshine Voice」
リアルタイムで音声を扱うアプリケーションを作成できるオープンソースのAIツールキットが「Moonshine Voice」です。
GitHub - moonshine-ai/moonshine: Fast and accurate automatic speech recognition (ASR) for edge devices
https://github.com/moonshine-ai/moonshine
「Moonshine Voice」はすべてがデバイス上で実行されるため、高速かつプライベートであり、アカウントやクレジットカード、APIキーなどは必要ありません。
また、フレームワークとモデルが生配信アプリ向けに最適化されているので、ユーザーが話している間に多くの処理を行い、低遅延で応答します。
すべてのモデルが独自の最先端研究に基づきゼロからトレーニングされていて、精度はOpenAIの音声認識モデル「Whisper Large V3」よりも高いとのこと。
ライブスピーチ処理時のベンチマーク結果を単語誤り率(WER)の低い順に並べたものが以下。「Moonshine Medium Streaming」が「Whisper Large V3」を上回ったほか、「Moonshine Small Streaming」は「Whisper Small」を、「Moonshine Tiny Streaming」は「Whisper Tiny」を、それぞれ上回っています。
|モデル名
|WER
|パラメーター数
|処理速度(MacBook Pro)
|処理速度(Linux x86)
|処理速度(Raspberry Pi 5)
|Moonshine Medium Streaming
|6.65%
|245 million
|107ms
|269ms
|802ms
|Whisper Large v3
|7.44%
|1.5 billion
|11,286ms
|16,919ms
|N/A
|Moonshine Small Streaming
|7.84%
|123 million
|73ms
|165ms
|527ms
|Whisper Small
|8.59%
|244 million
|1940ms
|3,425ms
|10,397ms
|Moonshine Tiny Streaming
|12.00%
|34 million
|34ms
|69ms
|237ms
|Whisper Tiny
|12.81%
|39 million
|277ms
|1,141ms
|5,863ms
Whisperは音声合成技術を大きく前進させた一歩で、最大のモデルであるLarge V3はGoogleやAppleといった大企業以外でも利用可能で高い精度を出すことができました。このため、Moonshineも「faster-whisper」などの大ファンだそうですが、ライブ音声インターフェースを必要とするアプリケーションを構築する中で、Whisperでは利用できない機能が必要なことに気付いたとのこと。
1点目は「Whisperは常に30秒の入力ウィンドウで動作する」という点です。普通に音声を大量に処理するときには、先にある30秒ほどの音声の塊を見つけて順次処理していけばよいので問題にはならないのですが、ライブ音声インターフェースの場合、入力ストリームを見て大きな音声の塊を作成することはできず、また、塊自体も5秒から10秒より長くなることがめったにありません。このため、エンコーダーとデコーダーで無駄な「ゼロ埋め」処理が必要となり、結果が戻るまでの待ち時間が長くなってしまいます。Moonshineは最も重要な要件として「応答性」を挙げ、通常は200ミリ秒以下のレイテンシとして定義されるため、計算能力に余裕があるプラットフォームでもユーザー体験を損ない、制約の多いデバイスでは使い物にならなくなると述べています。
2点目は「Whisperは何もキャッシュしない」という点です。音声インターフェースの要件は「ユーザーが話しているときにフィードバックを表示する」、つまり話している間にSpeech to Textモデルを繰り返し呼び出すということです。しかし、Whisperは入力がほぼ一定であっても毎回ゼロから開始するので、以前処理したことのある音声に対しても冗長な処理が発生します。ここでも不必要な待ち時間が発生し、ユーザー体験を損ないます。
3点目は「Whisperは対応言語が多くない」という点です。Whisperは単一モデルで多くの言語を処理し、翻訳することができますが、82言語のうちWERが20％以下だったのは33言語にとどまります。また、制約の多いデバイスで実行した場合にWERが20％を切るのは5言語にまで減少します。クラウドAPI経由で利用できるバージョンだと精度が上がるようですが、オープンモデルとして利用することはできません。
このほかにも、Whisperエコシステム自体は育っているものの、エッジプラットフォーム全体でみるとインターフェイスや機能、最適化のレベルが異なるため、さまざまなデバイスで実行する必要があるアプリケーションの構築が不必要に難しくなっていることも指摘されています。
このため、Moonshineはライブ音声インターフェースのニーズを適切に満たす独自モデルファミリーの作成に乗り出したとのこと。
ライブラリーはPython、iOS、Android、macOS、Linux、Windows、Raspberry Pi、IoTデバイス、ウェアラブル端末で動作可能なので、プラットフォーム間の統合も容易です。
GitHub - moonshine-ai/moonshine: Fast and accurate automatic speech recognition (ASR) for edge devices
https://github.com/moonshine-ai/moonshine?tab=readme-ov-file#quickstart
高レベルAPIは文字起こしや話者識別、コマンド認識などの一般的なタスクを処理可能で、専門家ではない人でも音声アプリケーションを構築することができるとのこと。
対応言語は英語、スペイン語、中国語(北京語)、日本語、韓国語、ベトナム語、ウクライナ語、アラビア語など多岐に渡ります。
今後はモバイル展開のためのバイナリサイズ縮小や、より多くの言語やより多くのストリーミングモデル、話者識別の改善、軽量なドメインカスタマイズなどの実装を目指していくとのことです。
