ついにChatGPTが「見る」「聞く」「話す」に対応、人間と同じように音声で会話したり写真の内容について質問したりできる
OpenAIがChatGPTに「画像の内容を判断して応答する機能」と「テキストではなく音声でコミュニケーションする機能」を追加することを発表しました。これにより「冷蔵庫の中身を見せてレシピを提案してもらう」といった視覚を伴うコミュニケーションが可能になるほか、人間と会話するように音声コミュニケーションをとることが可能となります。
ChatGPT can now see, hear, and speak
https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
OpenAIによると、今後2週間以内に有料プラン「ChatGPT Plus」と「ChatGPT Enterprise」の加入者に対して画像の内容を認識して応答する機能と音声でコミュニケーションする機能を提供予定とのこと。このうち、画像認識機能は全プラットフォームで利用可能になり、音声コミュニケーション機能はiOS版ChatGPTとAndroid版ChatGPTでのみ利用可能になる予定です。
◆画像認識機能
画像認識機能では、ChatGPTに画像を入力することでGPT 3.5やGPT 4を用いて画像認識処理が行われ、画像を踏まえて応答を返してくれます。例えば、「冷蔵庫の中身を見せてレシピを提案してもらう」「グラフを見せて要点を解説してもらう」といった操作が可能です。
以下の例では自転車の写真を見せつつChatGPTに「自転車のサドルの下げ方を教えて」と質問した結果、「クイックリリースレバーやボルトを操作して」とサドルの下げ方を教えてくれています。
さらに、写真の一部を白線で囲って「レバーってこれ?」と尋ねると、「違います。それはボルトです。緩めるには六角レンチが必要です」と回答してくれました。
さらに自転車の説明書と工具箱の写真を見せて「説明書と工具箱はこんな感じだけど、合ってる道具はある?」と聞くと「工具箱の左側に入っている『DEWALT』というラベルが付いた工具が使うべき工具です」と教えてくれました。
◆音声コミュニケーション機能
音声コミュニケーション機能の画面はこんな感じ。ユーザーが発話した内容が文字起こしAI「Whisper」で認識され、発話内容に対してChatGPTが音声で応答してくれます。
ChatGPTの声は「テキストと数秒の音声サンプルだけで合成音声を作り出せるAIモデル」を用いて作成されており、記事作成時点では5種類の声のサンプルが公開されています。以下のムービーを再生してChatGPTの声のサンプルを試聴すると、かなり自然な声が出力されていることが分かります。
ChatGPTの音声会話機能のサンプル - YouTube
なお、ChatGPTの合成音声作成に用いられているAIモデルは、Spotifyでテスト中の自動翻訳機能にも採用されています。
・関連記事
「GPT-4」発表、司法試験上位10%&日本語でもめちゃくちゃ高性能&画像処理もプログラミングも可能で「初代iPhoneと同等の衝撃」とも評される - GIGAZINE
ChatGPTに完全統合して会話から画像を生成できるAI「DALL-E 3」をOpenAIが発表、前世代よりテキストに忠実で安全性も向上 - GIGAZINE
AIの創造的な思考能力がついに人間の平均を上回ったとの研究結果が報告される - GIGAZINE
人工知能が大きな脅威をもたらす可能性についてDeepMindの共同創設者が語る - GIGAZINE
3年間で17人の医師が見つけられなかった少年の痛みの原因をChatGPTが特定することに成功 - GIGAZINE
AIトレーニング会社は作家や詩人を雇いトレーニング素材となるオリジナル短編を書かせている - GIGAZINE
・関連コンテンツ
in ソフトウェア, Posted by log1o_hf
You can read the machine translated English article ChatGPT finally supports 'viewing,' 'lis….