2026年06月03日 11時57分 AI

MicrosoftがClaude Sonnet 4.6と同等性能な「MAI-Thinking-1」や音声クローンモデル「MAI-Voice-2」を含む7種のAIモデルを発表

Microsoftが独自開発の推論モデル「MAI-Thinking-1」や小型コーディングモデル「MAI-Code-1-Flash」を含む7種類の独自開発AIモデルを2026年6月2日に発表しました。発表されたモデルのうち、MAI-Thinking-1は「人間による評価でAnthropicのClaude Sonnet 4.6を上回った」とアピールされています。

Building a hill-climbing machine: Launching seven new MAI models | Microsoft AI
https://microsoft.ai/news/building-a-hillclimbing-machine-launching-seven-new-mai-models/

Microsoftが発表したAIモデルは以下の7種類です。MAI-Image-2.5については2026年5月26日に発表されていたモデルが改めて発表された形です。

MAI-Thinking-1：総パラメーター数1兆、アクティブパラメーター数350億のMoEモデル
MAI-Code-1-Flash：総パラメーター数50億の小型モデル。コーディングタスクを高速実行可能
MAI-Image-2.5：画像生成モデル。画像生成で世界3位、画像編集で世界2位の実力
MAI-Image-2.5 Flash：高速な画像生成モデル
MAI Transcribe-1.5：日本語を含む43言語に対応した高速かつ高精度な文字起こしモデル
MAI-Voice-2：日本語を含む15言語に対応した音声合成モデル
MAI-Voice-2 Flash：高速な音声合成モデル

◆MAI-Thinking-1
MAI-Thinking-1は総パラメーター数1兆、アクティブパラメーター数350億のMoEモデルです。学習データにはAI生成コンテンツが含まれておらず、適切なライセンスが付与されたクリーンなデータのみを用いたとのこと。また、Microsoft製AIチップ「Maia 200」などの社内インフラを活用して開発することで自己完結性を確保。さらに、他社製モデルからの蒸留は実行していないことが明言されています。

「MAI-Thinking-1」「Claude Sonnet 4.6」「Claude Opus 4.6」「GPT-5.4」「Kimi K2.6」「DeepSeek V3.2」「DeepSeek V4」「GLM-5.1」の各種ベンチマーク結果を並べた表が以下。MAI-Thinking-1は数学問題の解答能力を測定するAIME 2025でClaude Sonnet 4.6に勝利しています。他のベンチマークテストではClaude Sonnet 4.6より低いスコアですが、Microsoftは「1276件のタスクを実行する能力について人間に評価させた結果、MAI-Thinking-1はClaude Sonnet 4.6よりも高性能と評価された」とアピールしています。

MAI-Thinking-1はMicrosoft Foundryでのプライベートプレビュー提供が始まっており、近日中にMAI Playgroundで利用可能になります。

◆MAI-Code-1-Flash
MAI-Code-1-Flashは総パラメーター数50億のコーディングモデルです。MAI-Code-1-FlashとClaude Haiku 4.5のベンチマークスコアを比較したグラフが以下。MAI-Code-1-Flashは一貫してClaude Haiku 4.5より高いスコアを記録しています。

MAI-Code-1-FlashはVisual Studio CodeやGitHub Copilotで順次利用可能となる予定です。

◆MAI-Image-2.5およびMAI-Image-2.5 Flash
MAI-Image-2.5は被写体やシーン構造、照明、大きさ、空間関係を高度に推論して高品質な画像を生成できる画像生成AIです。また、画像内に指示通りの文字を描画する性能も優れています。

MAI-Image-2.5はAIランキングサービスの「Arena」において、テキストから画像を生成するカテゴリで3位、画像を編集するカテゴリで2位にランクインしています。

Microsoftが画像生成AI「MAI-Image-2.5」をリリース、テキストからの画像生成で世界3位の実力 - GIGAZINE

MAI-Image-2.5 FlashはMAI-Image-2.5と比べて高速かつコスト効率に優れたモデルとして提供されます。

MAI-Image-2.5とMAI-Image-2.5 FlashはMicrosoft FoundryのAPI経由で利用可能。MAI-Image-2.5の100万トークン当たりのAPI料金はテキスト入力が5ドル(約799円)、画像入力が8ドル(約1279円)、画像出力が47ドル(約7512円)です。MAI-Image-2.5 Flashの100万トークン当たりのAPI料金はテキスト入力が1.75ドル(約280円)、画像入力が1.75ドル(約280円)、画像出力が19.50ドル(約3117円)です。

◆MAI Transcribe-1.5
MAI Transcribe-1.5は日本語を含む43言語に対応した文字起こしモデルです。以下のグラフは第三者機関のArtificial Analysisが実施したエラー率テストの結果を示したグラフで、縦軸が小さいほど高精度な文字起こしが可能であることを示しています。MAI Transcribe-1.5は前世代モデルのMAI Transcribe-1よりエラー率が低く、かなり高精度な文字起こしモデルと評価されています。

以下のグラフは縦軸がエラー率、横軸が処理速度を示しています。MAI Transcribe-1.5は低いエラー率と高速な処理速度を両立できています。

MAI Transcribe-1.5はAPI経由で利用可能。APIの詳細は以下のリンク先で公開されています。

MAI-Transcribe in LLM Speech API - Speech Service - Foundry Tools | Microsoft Learn
https://learn.microsoft.com/en-us/azure/ai-services/speech-service/mai-transcribe?pivots=ai-foundry

◆MAI-Voice-2およびMAI-Voice-2 Flash
MAI-Voice-2は日本語を含む15言語に対応した音声合成モデルです。人間の音声を入力することで、同じ声で任意のワードを発話させることが可能。以下のグラフは「MAI-Voice-2で合成した音声(濃い赤)」と「人間の録音音声(薄い赤)」のどちらが好ましいかを人間に評価させた結果を示しており、MAI-Voice-2が本物の人間と同等と評価されたことが分かります。

MAI-Voice-2はAPI経由で利用可能。APIの詳細は以下のリンク先で確認できます。また、低コストかつ高効率なMAI-Voice-2 Flashが近日中に登場予定です。

Build Multilingual TTS with MAI-Voice-2-Preview | Forgebook
https://microsoft-foundry.github.io/forgebook/notebook/mai-voice-2/

この記事のタイトルとURLをコピーする

・関連コンテンツ

2026年06月03日 11時57分00秒 in AI, Posted by log1o_hf

You can read the machine translated English article Microsoft has announced seven AI models,….