2025年08月29日 11時43分

OpenAIが最も先進的な音声対話モデル「gpt-realtime」を公開、「Realtime API」も正式版に



OpenAIが、2024年10月に公開したChatGPTのリアルタイム会話機能をアプリに組み込める「Realtime API」をベータ版から正式版にアップデートし、一般公開しました。また、実用的な音声対話モデル(音声AI)「gpt-realtime」も発表されています。





The Realtime API is officially out of beta and ready for your production voice agents!



We’re also introducing gpt-realtime—our most advanced speech-to-speech model yet—plus new voices and API capabilities:



🔌 Remote MCPs

🖼️ Image input

📞 SIP phone calling

♻️ Reusable prompts pic.twitter.com/fX5yvt0CDD — OpenAI Developers (@OpenAIDevs) August 28, 2025



「Realtime API」は2024年10月、テキスト読み上げAPIを経由することなく、音声認識モデルとオーディオ入出力を直接行うことで遅延を減らせるAPIとして登場しました。



OpenAIによると、このパブリックベータ版公開後、何千人もの開発者がAPIを導入して改善点が洗い出された結果、信頼性、低遅延、高品質を実現して、音声エージェントを運用環境に正常に導入できるよう最適化されているとのこと。実際に、不動産情報サイトのZillowや、通信会社のT-Mobileなどで、自然に応答する音声エージェントが導入されています。



そして、新たに発表された音声対話モデルが、複雑な指示の理解やツールの正確な呼び出し、より自然で表現豊かな音声生成の改善などを盛り込んだ「gpt-realtime」です。OpenAIによると、システムメッセージや開発者プロンプトの解釈能力も向上し、サポート通話での免責事項の説明の逐語読み上げ、英数字の復唱、文中の言語のシームレスな切り替えなどに対応しているとのこと。



OpenAIのスタッフによるgpt-realtimeの紹介とデモンストレーションの映像が公開されています。



Introducing gpt-realtime in the API - YouTube





音声認識の遅延の少なさや、言語のシームレスな切り替えなどが確認できます。





音声エージェントの展開には自然な会話が不可欠。gpt-realtimeでは、より自然に聞こえ、きめ細かい指示にも従うより高品質な音声を生成するためのトレーニングが行われたとのことで、新たに「Cedar」と「Marin」という2つの音声が加わったほか、既存の8つの音声も更新されたとのこと。



Marinのサンプルボイスはこんな感じ。





Cedarのサンプルボイスはこんな感じです。





gpt-realtimeは音声理解力も以前より高まっており、電話番号などの英数字の検出精度は82.8％と、2024年12月以前のモデルの65.6％から大きく改善されています。





また、開発者はモデルに対して「特定の状況で何を言うべきか、何をすべきか・すべきでないか」といった行動規範を指示します。OpenAIはこうした指示を守ることに集中して改善を行い、指示順守精度を測るMultiChallenge音声ベンチマークで30.5％というスコアを記録しました。これは2024年12年の従来モデルが記録した20.6％から大幅に向上しています。





関数呼び出しでも、ComplexFuncBench Audio Function Callingベンチマークで66.5％のスコアを記録し、従来モデルの49.7％を大きく上回りました。





このほか、MCPサポートの有効化や画像入力のサポートなどの改善が加わっています。



gpt-realtimeの利用料金はgpt-4o-realtime-previewと比較して20％安くなり、音声入力トークンが100万件あたり32ドル(約4700円)・キャッシュ済み入力トークンは0.4ドル(約59円)、音声出力トークンは100万件あたり64ドル(約9400円)となっています。

