AI

Mistral AIが文字起こしAI「Voxtral Mini Transcribe V2」と「Voxtral Realtime」を発表


フランスに拠点を置くAI企業のMistral AIが文字起こしAI「Voxtral Mini Transcribe V2」と「Voxtral Realtime」を発表しました。どちらも日本語に対応しており、高速かつ高精度な文字起こしが可能です。

Voxtral transcribes at the speed of sound. | Mistral AI
https://mistral.ai/news/voxtral-transcribe-2


Voxtral Mini Transcribe V2は話者を識別しながら文字起こしすることができるAIです。以下のグラフは各種AIモデルの文字起こし精度を示すもので、横軸がコスト、縦軸がエラー率を示しています。Voxtral Mini Transcribe V2はGemini 2.5 FlashやGPT-4o mini transcribeより高い精度で文字起こしが可能で、Scribe v2より圧倒的に低コストです。


話者の識別製能を示したグラフが以下。Voxtral Mini Transcribe V2が低コストかつ高精度であることが分かります。


Voxtral Realtimeはリアルタイムでの文字起こしを念頭に設計されたAIで、遅延速度を200ミリ秒未満まで抑えることができます。対応言語は日本語、英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、韓国語、イタリア語、オランダ語の13種類です。遅延の大きさに応じてに性能が変化し、遅延を2400ミリ秒に設定するとVoxtral Mini Transcribe V2に近い精度で文字起こしが可能です。


Voxtral Mini Transcribe V2とVoxtral RealtimeはAPI経由で利用可能です。また、Voxtral Realtimeはモデルデータが公開されており、ローカル環境でも実行できます。

Voxtral Mini Transcribe 2 - Mistral AI | Mistral Docs
https://docs.mistral.ai/models/voxtral-mini-transcribe-26-02

Voxtral Mini Transcribe Realtime - Mistral AI | Mistral Docs
https://docs.mistral.ai/models/voxtral-mini-transcribe-realtime-26-02

mistralai/Voxtral-Mini-4B-Realtime-2602 · Hugging Face
https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602

この記事のタイトルとURLをコピーする

・関連記事
Metaが1600以上の言語に対応した文字起こしAI「Omnilingual ASR」を公開 - GIGAZINE

日本語を含む11言語に対応する高精度な自動文字起こしAIモデル「Qwen3-ASR-Flash」をAlibabaの開発チームが発表 - GIGAZINE

FFmpeg 8.0「Huffman」リリース、文字起こしAI「Whisper」やVulkanベースのコーデックへの正式対応など過去最大級のメジャーアップデート - GIGAZINE

無料であらゆる動画の字幕を自動で文字起こし・修正・編集・翻訳ができるオープンソースの字幕エディター「Subtitle Edit」を使ってみた - GIGAZINE

Appleの新しい文字起こしAPI「SpeechAnalyzer」がスピードテストでOpenAIのWhisperを圧倒 - GIGAZINE

in AI, Posted by log1o_hf

You can read the machine translated English article Mistral AI Announces Transcription AI 'V….