AI

いろんな音が混ざった動画や音声から目的の音だけを分離できるAI「SAM Audio」をMetaが公開


Metaが音声分離AI「SAM Audio」を公開しました。SAM Audioには音声や動画を入力可能で、「文章で指示して特定の音を抜き出す」「動画内の『音声を発している被写体』を指定して音声を抜き出す」「動画内の特定のタイミングで鳴っている音を指定して抜き出す」といった操作が可能です。

SAM Audio
https://ai.meta.com/samaudio/

Introducing SAM Audio: The First Unified Multimodal Model for Audio Separation | AI at Meta - YouTube


SAM Audioは音声だけでなく動画も入力することが可能です。音楽セッションを記録した動画からギターの音だけを抜き出したい場合は、テキストで「guitar」と指示します。


これで動画内のギターの音だけを分離できます。


動画内の被写体をクリックして、その被写体が発している音だけを抜き出すこともできます。「人間の声」や「電車の音」などが混ざった動画ファイルでも、「人間をクリックして、その人が話している音声だけを抜き出す」という操作が可能です。


さらに、「動画内で鳴っている音のうち、鳥の鳴き声の一部だけを指定して、動画全体の鳥の鳴き声を抜き出す」という操作も実行できます。Metaはこの操作を「Span prompts」と呼んでいます。


MetaはSAM Audioが各種音声分離AIと比べて高性能であることをアピールしています。


SAM Audioのモデルデータは以下のリンク先からダウンロード可能。

sam-audio - a facebook Collection
https://huggingface.co/collections/facebook/sam-audio


また、モデルの使い方などは以下のリンク先にまとまっています。

GitHub - facebookresearch/sam-audio: The repository provides code for running inference with the Meta Segment Anything Audio Model (SAM-Audio), links for downloading the trained model checkpoints, and example notebooks that show how to use the model.
https://github.com/facebookresearch/sam-audio

この記事のタイトルとURLをコピーする

・関連記事
Metaが1600以上の言語に対応した文字起こしAI「Omnilingual ASR」を公開 - GIGAZINE

Metaが動画内の物体を識別して切り抜けるAIモデル「SAM 3」を発表 - GIGAZINE

1枚の写真から目的の人間や物体だけを切り抜いて3Dモデル化できるAI「SAM 3D Body」&「SAM 3D Objects」をMetaが公開 - GIGAZINE

Metaが画像だけでなく動画内のオブジェクトもリアルタイムかつ正確に識別可能なAIモデル「Segment Anything Model 2(SAM 2)」をリリース - GIGAZINE

Metaがメタバース向け予算を大幅に削減しAIウェアラブル端末へ方針転換 - GIGAZINE

AI開発の重要基盤「PyTorch」の発明者がMetaを退職 - GIGAZINE

in AI,   動画, Posted by log1o_hf

You can read the machine translated English article Meta releases AI 'SAM Audio' that can se….