OpenAIが「ChatGPTのリアルタイム会話機能をアプリに組み込めるAPI」をリリース
OpenAIが2024年10月1日に、すべての開発者がアプリ内で低遅延のマルチモーダルエクスペリエンスを構築できるようにする「Realtime API」のパブリックベータ版の提供を開始しました。これにより、さまざまなアプリでAIとのリアルタイムな会話が可能になります。
Introducing the Realtime API | OpenAI
https://openai.com/index/introducing-the-realtime-api/
????️ Introducing the Realtime API—build speech-to-speech experiences into your applications. Like ChatGPT’s Advanced Voice, but for your own app. Rolling out in beta for developers on paid tiers. https://t.co/LQBC33Y22U pic.twitter.com/udDhTodwKl
— OpenAI Developers (@OpenAIDevs) October 1, 2024
これまで、音声アシスタントを実現するためには、音声認識モデルがユーザーの入力した音声を書き起こし、そのテキストをテキストモデルに渡した上で推論を行い、その出力をテキスト読み上げAPIを用いて再生する必要がありましたそのため、このアプローチでは感情や強調、アクセントが失われるほか、遅延が顕著になるという問題が発生していました。
しかし、Realtime APIでは、オーディオ入出力を直接ストリーミングすることでこの問題を改善して、より自然な会話体験を実現しているとのこと。また、有料ユーザー向け機能「Advanced Voice Mode」と同様に、中断を自動的に処理することも可能です。
内部的には、Realtime APIとGPT-4oの間でメッセージを交換するための永続的なWebSocket接続を作成します。また、Realtime APIは「Function calling」をサポートしていることから、作成した音声アシスタントはアクションをトリガーしたり、新しいコンテキストを取得したりして、ユーザーのリクエストに応答できるそうです。
実際に栄養バランスとフィットネスのコーチングアプリ「Healthify」では、Realtime APIを活用してAIコーチ「Ria」との自然な会話ができるほか、必要に応じて人間の栄養士によるパーソナライズされたサポートを受けることが可能です。
また、言語学習アプリの「Speak」では、Realtime APIを使用してロールプレイ機能を強化し、ユーザーの言語学習をサポートしているとのこと。
We’ve been working closely with OpenAI for the past few months to test the new Realtime API. I’m excited to share some thoughts on the best way to productize speech-to-speech for language learning, and announce the first thing we’ve built here, Live Roleplays. ???? pic.twitter.com/cdsVBf9V3x
— Andrew Hsu (@adhsu) October 1, 2024
Realtime APIは「gpt-4o-realtime-preview」として2024年10月1日から利用可能になっています。Realtime APIの利用料金が以下。なお、OpenAIによるとオーディオ入力の価格は1分当たり約0.06ドル(約8.6円)、出力は1分当たり0.24ドル(約34円)に相当するそうです。
テキスト入力 | テキスト出力 | オーディオ入力 | オーディオ出力 | |
---|---|---|---|---|
100万トークン当たりの価格 | 5ドル(約718円) | 20ドル(約2870円) | 100ドル(約1万4300円) | 200ドル(約2万8700円) |
Realtime APIの安全性についてOpenAIは「自動監視やモデルの入力と出力に対する人間によるレビューなど、複数の安全保護レイヤーを使用してAPIの不正使用のリスクを軽減しています」と述べています。また、ユーザーに対し「OpenAIのサービスからの出力をスパムや誤解を招く目的、他者に危害を加える目的で再利用または配布することは、利用ポリシーに違反します。当社は、潜在的な不正使用を積極的に監視しています。文脈から明らかな場合を除き、開発者がAIとやり取りしていることをユーザーに対して明確に伝えることも義務付けています」と忠告しています。
さらに、OpenAIは「お客様による明示的な許可なしに、このサービスで使用される入力または出力でモデルを学習することはありません」と宣言しました。
将来的に導入予定の機能についてOpenAIは「画像や動画などのモダリティの追加」「レート制限の引き上げ」「公式SDKのサポート」「「プロンプトキャッシングの導入」「サポートするモデルの拡張」を挙げています。
・関連記事
OpenAIが新モデル「o1-preview」の思考内容を出力させようとしたユーザーに警告 - GIGAZINE
OpenAIが無料で使えるAIモデル「GPT-4o mini」をリリース、マルチモーダルで画像や音声入力にも対応 - GIGAZINE
OpenAIがスカーレット・ヨハンソンのように聞こえると批判され話題となったChatGPTのアドバンスト音声モードを有料会員向けに提供開始 - GIGAZINE
OpenAIがGPT-4oベースの有害なテキストや画像を検出できる新しいマルチモーダルモデレーションモデルを「Moderation API」に導入 - GIGAZINE
ソフトバンクがOpenAIに700億円超えの出資を計画中との報道 - GIGAZINE
・関連コンテンツ