NVIDIAがクラウドAIでビデオ会議を加工できる新プラットフォーム「Maxine」を発表
半導体メーカーのNVIDIAが2020年10月5日に、NVIDIAのAIでビデオ会議の映像や音声の品質を向上させたり、自動で加工したりすることが可能な開発者向けプラットフォーム「Maxine」を発表しました。
NVIDIA Announces Cloud-AI Video-Streaming Platform to Better Connect Millions Working and Studying Remotely | NVIDIA Newsroom
https://nvidianews.nvidia.com/news/nvidia-announces-cloud-ai-video-streaming-platform-to-better-connect-millions-working-and-studying-remotely
Maxineの機能がどんな感じなのかは、以下のムービーを見るとよく分かります。
AI-Powered Video Conferencing with NVIDIA Maxine - YouTube
「SUPER RESOLUTION」機能では、解像度を360pから720pに向上させることが可能。女性の髪や椅子の模様などに注目すると、左のオリジナル映像に比べて、右のMaxineで加工した映像の方がくっきりとしていることが分かります。
「AUTO FRAME」は、被写体を自動で追跡してフレームに収める機能です。以下の場面では、男性が画面の向かって左側に立っていますが……
男性をフレームに収めるように視点が自動で移動するので、男性が右側に歩いて移動しても、しっかりとフレームに収まっています。
Zoomなどにも実装されている、背景を仮想背景に切り替えることが可能な「VIRTUAL BACKGROUND」も搭載。
後ろにいる子どもが、おもちゃのピアノをめちゃくちゃに弾いていても、「DENOISE」を使用すると全く聞こえなくなります。一方、女性の声は多少くぐもる程度なので、会話には支障がありません。
「CONVERSATIONAL AI AVATAR」は、使用者の顔をアバターに変換することが可能です。
「TRANSLATION」では、音声をリアルタイムで文字起こしして翻訳してくれます。日本語にも対応しているかどうかは、記事作成時点では不明です。
「AI VIDEO COMPRESSION」を使うと、映像を圧縮してデータの量を大幅に減らすことが可能。帯域幅の使用量は、最大でH.264の10分の1にまで削減されるとのことです。
「FACE ALIGNMENT」は、話者がカメラを直視していない時でも、まるでカメラをまっすぐ見ているかのような映像にする機能です。
Maxineのデータ処理は、ローカルではなくクラウドで行われるため、ユーザーはハイスペックなPCを用意しなくてもこれらの機能を使うことができます。
NVIDIAのアクセラレーテッド・コンピューティング担当のゼネラルマネージャー兼バイスプレジデントであるイアン・バック氏は、「今やビデオ会議は日常生活の一部となっており、何百万人もの人々が仕事や学習、遊び、ひいては病院の診察にビデオ会議を活用しています。Maxineは、NVIDIAの最も先進的な映像、音声、対話型AIの技術を統合させたもので、類を見ない効率性と新機能を、私たちにもたらしてくれます」と話しました。
Maxineは、Zoomのように消費者が直接使うプラットフォームではなく、サードパーティーの開発者や企業が自社のサービスに組み込んで利用するためのツールキットで、NVIDIAはAI開発者やPCメーカーを対象にしたMaxineへの早期アクセス申請受付を開始しています。
・関連記事
「動物の表情を別の動物に当てはめるAI」をNVIDIAが開発、デモ用のウェブサイトも公開中 - GIGAZINE
AIが人間の行動を観察するだけで同じ行動を模倣する技術をNVIDIAが公開 - GIGAZINE
NVIDIAが深層学習でX線写真の分析をサポートする医療用AIキット「Clara」を開発 - GIGAZINE
邪魔な物体を塗りつぶすだけでAIが画像を違和感ないレベルに自動修正する技術「Image Inpainting」をNVIDIAが公開 - GIGAZINE
NVIDIAのAIが5万本のプレイ動画を見ただけで「パックマン」をゲームエンジンなしに再現 - GIGAZINE
落書きをリアルな風景写真にリアルタイムで変換できる驚異的なお絵かき技術「GauGAN」をNVIDIAが発表 - GIGAZINE
・関連コンテンツ