2026年01月05日 20時00分 AI

OpenAIは音声ベースのAIデバイスに備えて新しい音声AIモデルを開発しているとの報道

大手AI企業のOpenAIは音声AIに大きく賭けており、エンジニアリング・製品・研究チームを統合し、音声AIの刷新に取り組んでいるとThe Informationが報じました。OpenAIの音声AIに関する取り組みは、同社が発売予定の音声デバイスに向けた準備であるとされています。

OpenAI Ramps Up Audio AI Efforts Ahead of Device — The Information
https://www.theinformation.com/articles/openai-ramps-audio-ai-efforts-ahead-device

OpenAI bets big on audio as Silicon Valley declares war on screens | TechCrunch
https://techcrunch.com/2026/01/01/openai-bets-big-on-audio-as-silicon-valley-declares-war-on-screens/

Report: OpenAI plans to launch new audio model in the first quarter - SiliconANGLE
https://siliconangle.com/2026/01/01/report-openai-plans-launch-new-audio-model-first-quarter/

OpenAI merges audio teams, targets new voice architecture by March 2026
https://www.implicator.ai/openai-merges-audio-teams-targets-new-voice-architecture-by-march-2026/

OpenAI's AI Pen Could Turn Your Scribbles Into ChatGPT Gold - Phandroid
https://phandroid.com/2025/12/31/openais-ai-pen-could-turn-your-scribbles-into-chatgpt-gold/

Google NestやAmazon Echoといったスマートスピーカーの登場により、音声アシスタントは急速に普及しており、市場調査によりアメリカでは一般家庭の3分の1以上が音声アシスタントを利用していることが明らかになっています。

MetaはRay-Ban MetaなどのAIグラス向けに、5つのマイクアレイを使用して騒がしい部屋でも会話を聞き取れる機能を発表しました。

Googleは2025年6月に検索結果を会話形式の要約に変換する「Audio Overview」を発表しています。

Googleが「検索結果の内容をラジオ風に音声でまとめるAI機能」を開発中 - GIGAZINE

テスラはxAIのチャットボットであるGrokを車両に搭載し、ナビゲーションから空調制御まであらゆる機能を処理できる会話型音声アシスタントを開発しています。

チャットAI「Grok」が2025年7月12日以降に納車されるテスラ車に標準搭載されることが判明、既存車両にもアップデートで対応 - GIGAZINE

手のひらに映像を投影できる音声AIデバイスとして過去に「Humane AI Pin」が登場したこともありましたが、このデバイスは販売およびサービス提供が打ち切られています。

HumaneがAi Pinを廃止し事業をHPに売却、2025年2月末でオンライン機能が停止しデータも全消滅 - GIGAZINE

by Ged Carroll

このように大手AI企業は音声AIの開発に取り組んでおり、今後登場する音声AIデバイスは「ディスプレイのあるデバイス」ではなく、自宅・車内・手のひらに映像を投影するものが主流になると見込まれています。

OpenAIも音声AIデバイス向けの音声AIの開発に注力していると報じられています。この新しい音声モデルは2026年初頭にリリース予定で、より自然な音声で、まるで実際の会話相手のように割り込みにも対応し、ユーザーが話している最中にも音声を発するなど、既存の音声モデルでは不可能な機能を実現することになるとのこと。

OpenAIの既存の主力音声モデルである「GPT-realtime」は、Transformerアーキテクチャを採用したものですが、新しい音声モデルが全く異なるアーキテクチャを採用するのか、Transformerのままなのかは不明です。

Transformerベースの音声モデルには音声を直接処理するものもあれば、OpenAIが2022年にリリースしたWhisperのように、音声ファイルをスペクトログラムと呼ばれるグラフに変換してから処理するものもあります。OpenAIはWhisperなどの音声モデルを出力品質の異なる複数のエディションで提供しており、今後リリース予定の音声モデルも複数のバージョンを提供する可能性があると指摘されています。

OpenAIはエンジニアリング・製品・研究チームを統合して新しい音声モデルを開発しており、このチームはCharacter.AIの元研究者であるクンダン・クマール氏が主導しているとThe Informationは報じました。なお、Character.AIは2024年8月にGoogleと非独占的契約を締結し、同社の共同創設者の多くがGoogleに移籍することとなりました。

Character.AIの共同創設者たちがGoogleへ移籍、GoogleはCharacter.AIの技術を使用するための非独占的契約に署名 - GIGAZINE

OpenAIはメガネ型やスクリーンレスのスマートスピーカーなどの開発を構想しているそうで、同社が開発しているAIデバイスは既にプロトタイプができており、史上最速で1億台出荷することを目指していることなどが報じられています。

OpenAIが手がけるAIハードウェアはプロトタイプができていて2年以内に完成予定 - GIGAZINE

なお、OpenAIのAIデバイスについては内部コードネームが「Gumdrop」であり、製造は中国の電子部品メーカーであるLuxshareが担当していたものの、アメリカによる中国に対する輸入規制などの影響でFoxconnに移行する可能性が高いことなどを、テクノロジー関連のリーカーである@zhihuipikachu氏が報じています。

As many requested, small supply chain updates about Openai / Jony ive hardware project now twice confirmed:

-internal codename is "Gumdrop" 🍬
-project was originally assigned to Luxshare 立讯
-now likely moving to Foxconn after dispute over mfg site location

Openai does not… https://t.co/gkhogbIb4f
— 智慧皮卡丘 Smart Pikachu (Weibo) (@zhihuipikachu) December 30, 2025