Xiaomiが音声理解能力に優れたAIモデル「MiDashengLM」をオープンソースで公開、Xiaomi製EVなどで使われている音声認識技術を基盤に開発された高品質モデル

中国企業のXiaomiはスマートフォンだけでなくPCや電気自動車など幅広い製品を開発しており、AIに関する研究にも力を注いでいます。新たに、Xiaomiが音声認識AIモデル「MiDashengLM-7B」を2025年8月4日(月)にリリースしました。
小米开源声音理解大模型 MiDashengLM-7B
https://mp.weixin.qq.com/s/at9Qo1b5kef6RK0yTEZ-nA
GitHub - xiaomi-research/dasheng-lm: Efficient audio understanding with general audio captions
https://github.com/xiaomi-research/dasheng-lm
Xiaomiは2024年に音声認識AI基盤モデル「Dasheng」を発表し、これまでに電気自動車やスマートホームデバイスなどの製品に活用してきました。今回リリースされたMiDashengLM-7BはDashengと「Qwen2.5-Omni」をベースに開発された音声認識AIモデルで、「音声の発生源」「音声を録音した環境」「音声に含まれる言語」といった情報を高精度に認識することができます。
以下の図は「MiDashengLM-7B(青色)」「Qwen2.5-Omni-7B(赤色)」「Kimi-Audio-Instruct-7B(黄色)」の各種ベンチマークスコアを比べたものです。MiDashengLM-7Bが多くのテストで最高スコアを記録しています。

「MiDashengLM-7B」と「Qwen2.5-Omni-7B」の音声認識性能比較ページでは多様な音声を入力した際の各モデルの出力を確認可能。人間の発話内容を入力するテストでは、MiDashengLM-7Bの方が内容を詳しく説明できました。

また、「コインが落ちる音」や「水滴が落ちる音」といった環境音を入力するテストでもMiDashengLM-7Bの方が正確に認識できていることが分かります。

MiDashengLM-7Bは応答速度が速いことも特徴の1つです。以下のグラフはMiDashengLM-7B(青色)とQwen2.5-Omni-7B(黄色)の応答速度を比べたもので、横軸が入力音声の長さ、縦軸が最初の出力までにかかった時間を示しています。MiDashengLM-7BはQwen2.5-Omni-7Bと比べて高速な応答が可能で、入力音声が長くなっても応答速度を保つことができます。また、バッチ数を増やすことで処理速度を高速化することもできます。

音声認識AIは「音声データと、音声の内容を書き起こしたテキストデータ」でトレーニングされることが多いですが、MiDashengLM-7Bは「音声データと、音声がどんな内容なのか説明するテキストデータ」でトレーニングされています。これにより、従来の音声認識AIでは難しい「音楽の理解」や「話者の感情の理解」が可能になりました。
MiDashengLM-7Bのモデルデータは以下のリンク先で配布されています。また、MiDashengLM-7Bを開発するために作成されたデータセット「ACAVCaps」も監査完了後にリリースされる予定です。
mispeech/midashenglm-7b · Hugging Face
https://huggingface.co/mispeech/midashenglm-7b

・関連記事
無料・オフラインで音声・動画を文字として書き起こす「Vibe」、OpenAIのWhisperを使ってWindows・macOS・Linuxで動作可能でYouTubeにも対応 - GIGAZINE
ウェブブラウザのみで無料の録音・文字起こしができる「EasyRec.app」を使ってみた - GIGAZINE
無料で自動文字起こし&テキストで音声編集も可能な「audapolis」を使ってみた - GIGAZINE
元GoogleのエンジニアによるElevenLabsが世界で最も正確な自動音声認識モデル「Scribe」を発表 - GIGAZINE
日本語を含む30以上の言語で男性と女性の声でテキストを読み上げることができる「Play 3.0 mini」 - GIGAZINE
・関連コンテンツ
in AI, ソフトウェア, Posted by log1o_hf
You can read the machine translated English article Xiaomi releases 'MiDashengLM,' an AI mod….







