OpenAIが「OpenAI o1のAPIリリース」「音声会話APIの値下げ」「JavaとGoのライブラリ公開」など新情報を大量公開
OpenAIが「OpenAI o1(正式リリース版)」のAPIを公開しました。合わせて、AIとの音声会話機能を提供する「Realtime API」のアップデートや、モデル微調整機能のアップデート、GoライブラリおよびJavaライブラリのリリースも発表されています。
OpenAI o1 and new tools for developers | OpenAI
https://openai.com/index/o1-and-new-tools-for-developers/
Our reasoning model @OpenAI o1 is now in the API! It comes with function calling, developer messages, Structured Outputs, and vision. 🍓
— Romain Huet (@romainhuet) December 17, 2024
We also shipped WebRTC support for the Realtime API, Preference Fine-Tuning, official Go/Java SDKs, and more! 🎁https://t.co/lk9v3u5G4N
◆OpenAI o1のAPI公開
OpenAI o1のAPIはテキストと画像の入力に対応しており、コンテキストウィンドウは20万トークン、最大出力トークン数は10万トークンです。なお、OpenAI o1の学習データには2023年10月までの情報が含まれています。
「GPT-4o(薄いオレンジ)」「OpenAI o1-preview(オレンジ)」「OpenAI o1(ピンク)」「OpenAI o1の構造化出力モード(赤)」の性能を比較したグラフが以下。OpenAI o1は各種ベンチマークで最も高いスコアを記録しています。
OpenAI o1のAPIは「reasoning_effort」というパラメーターに対応しており、推論にかける時間を調整できます。また、特定のリクエストに対してOpenAI o1-previewより平均60%少ない推論トークンで応答可能なほか、「関数呼び出し」「JSONに形式での出力」「画像推論」「開発者メッセージ」といった機能にも対応しています。
OpenAI o1のAPIはすでにティア5の開発者向けに公開されており、今後数週間をかけて提供範囲を拡大予定です。
We're bringing OpenAI o1 to the API. We're rolling out access to developers on usage tier 5 starting today, and rollout will continue over the next few weeks.
— OpenAI Developers (@OpenAIDevs) December 17, 2024
o1 supports:
⚙️ Function calling
🗂️ Structured Outputs
👀 Vision
📝 Developer messages
🧠 Reasoning effort pic.twitter.com/Ax8TT0IRke
◆Realtime APIのアップデート
Realtime APIはAIを用いて音声会話機能を提供するAPIです。新たにRealtime APIがWebRTCに対応し、ウェブアプリやモバイルデバイス、IoTデバイスなどのプラットフォーム間でリアルタイム音声会話アプリを簡単に構築できるようになりました。Realtime APIでWebRTCを活用する方法は以下のドキュメントにまとまっています。
Realtime API with WebRTC - OpenAI API
https://platform.openai.com/docs/guides/realtime-webrtc
さらに、音声品質を向上しつつコストを削減した「gpt-4o-realtime-preview-2024-12-17」と「gpt-4o-mini-realtime-preview-2024-12-17」もリリースされました。「gpt-4o-realtime-preview-2024-12-17」の価格は音声入力100万トークン当たり40ドル(約6100円)、音声出力100万トークン当たり80ドル(約1万2000円)、キャッシュ済みの音声入力100万トークン当たり2.5ドル(約380円)です。また、「gpt-4o-mini-realtime-preview-2024-12-17」の価格は音声入力100万トークン当たり10ドル(約1500円)、音声出力100万トークン当たり20ドル(約3100円)、キャッシュ済みの音声入力100万トークン当たり0.3ドル(約46円)です。
◆Preference Fine-Tuning
Preference Fine-Tuningは「Direct Preference Optimization(DPO)」というアプローチを採用したモデル微調整手法です。Preference Fine-Tuningを使うことで、「モデルの応答を2つ出力し、好ましい応答と好ましくない応答を区別するように学習させる」という操作が可能。これにより、ユーザーや開発者の好みに基づいた微調整を実行できるそうです。
preference fine-tuning, you can tell the model what to do and what not to do 😎 https://t.co/hdjcDtwAv4
— Karen Li (@karen_li6) December 17, 2024
Preference Fine-Tuningの詳細は以下のリンク先にまとまっています。
Fine-tuning - OpenAI API
https://platform.openai.com/docs/guides/fine-tuning#preference
◆GoとJavaのライブラリ
OpenAIは「TypeScript / JavaScript」「Python」「.NET」用の公式ライブラリを公開しています。新たに、GoとJavaのライブラリもリリースされました。
公式Goライブラリは以下のリンク先で公開されています。
GitHub - openai/openai-go: The official Go library for the OpenAI API
https://github.com/openai/openai-go
また、公式Javaライブラリは以下のリンク先で公開されています。
GitHub - openai/openai-java: The official Java library for the OpenAI API
https://github.com/openai/openai-java
・関連記事
OpenAIが最高のモデルを無制限に使える新規プラン「ChatGPT Pro」をリリース、o1モデルの正式版も登場 - GIGAZINE
OpenAIが動画生成AI「Sora」を正式にリリース、ChatGPT Plus・Proプランで利用可能 - GIGAZINE
ChatGPTのリアルタイムビデオ機能をついにOpenAIがリリース、サンタっぽい声で応答してくれる「サンタモード」も追加 - GIGAZINE
OpenAIがチャットやファイルをフォルダに整理するChatGPTの新機能「Projects」を間もなく無料ユーザーに展開すると発表 - GIGAZINE
Googleが「Gemini 2.0」を発表、高速な軽量モデルで前世代上位モデルを圧倒的に上回る性能 - GIGAZINE
Microsoftが軽量なのにGPT-4oを圧倒的に上回る数学性能を発揮するAIモデル「Phi-4」をリリース - GIGAZINE
・関連コンテンツ