Metaが日本語音声を入力するだけで「文字起こし」「翻訳」「吹き替え」を実行できるAI「SeamlessM4T」を公開、英語や中国に翻訳可能で無料で使えるデモも公開されたので使ってみた
Metaが音声を入力するだけで「文字起こし」「別言語への翻訳」「別言語への吹き替え」を実行できるAI「SeamlessM4T」を2023年8月22日(火)に公開しました。SeamlessM4Tは日本語音声の入力にも対応しており、日本語・英語・中国語・フランス語などを含む35言語への出力をサポートしているとのこと。誰でも使えるデモも公開されていたので、実際にデモを使ってどれだけの精度で文字起こしや吹き替えを実行できるのか試してみました。
Introducing SeamlessM4T, a Multimodal AI Model for Speech and Text Translations | Meta
https://about.fb.com/news/2023/08/seamlessm4t-ai-translation-model/
Introducing a foundational multimodal model for speech translation
https://ai.meta.com/blog/seamless-m4t/
文字起こしAIや翻訳AIは複数存在していますが、既存のAIの多くは「文字起こしだけ」「翻訳だけ」といったように単一の機能しか備えていません。Metaが新たに開発したSeamlessM4TはマルチモーダルなAIで、単一のAIだけで「文字起こし」「別言語への翻訳」「別言語への吹き替え」といった複数の操作を実行できます。
SeamlessM4Tの機能を試せるデモが以下のリンク先で公開されているので、実際に使って日本語音声の処理性能を試してみました。
Seamless Communication Translation Demo
https://seamless.metademolab.com/
デモにアクセスすると以下の画面が表示されるので、「START DEMO」と記された青色のボタンをクリックします。
デモの使用に関する注意書きが表示されたら利用規約をよく読み、同意のチェックを入れます。
するとデモを実行可能になるので「START RECORDING」をクリック。
マイクの使用許可を求められたら「許可する」をクリックします。
画面内に「Recording」と表示されたら、マイクに向かって処理したい文章を読み上げ、読み上げ終わったら「STOP RECORDING」をクリックします。
画面が切り替わったら、翻訳した言語を選択するべく下方向にスクロールします。
翻訳さき言語一覧が表示されたら、目的の言語をクリックしてから「TRANSLATE」をクリックします。
少し待つと、「文字起こししたテキスト」「選択した言語への翻訳したテキスト」「選択した言語へ吹き替えた音声」が出力されます。吹き替え音声は再生ボタンをクリックすれば再生できます。
以下のムービーを再生すると、文章を読み上げて翻訳するまでの一連の流れや吹き替え音声の精度を確認できます。文字起こし結果も翻訳結果も良好で、吹き替え結果もクリアに出力されています。
Metaの文字起こし&翻訳&吹き替えAI「SeamlessM4T」を使って日本語音声を英語や中国語に翻訳してみた - YouTube
なお、SeamlessM4Tはローカルにインストールして動作させることもできます。詳しいインストール手順は以下のリンク先で確認できます。
GitHub - facebookresearch/seamless_communication: Foundational Models for State-of-the-Art Speech and Text Translation
https://github.com/facebookresearch/seamless_communication
・関連記事
文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK - GIGAZINE
無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ - GIGAZINE
AIを駆使した音声翻訳システムをMetaが公開、テキストデータの収集が困難なマイナー言語にも対応 - GIGAZINE
Metaが200の言語で機能するAI翻訳モデルをオープンソース化、 メタバースで世界中の人々が交流できることを目指す - GIGAZINE
Googleがムービーの自動吹替&リップシンクAIを開発中、声色を変えずに吹替可能で高性能すぎて悪用注意とのこと - GIGAZINE
Googleが音声から「テキストと音声の両方」に翻訳できる大規模言語モデル「AudioPaLM」を発表 - GIGAZINE
ついにYouTubeがAIによる「自動翻訳吹き替え」機能を搭載へ - GIGAZINE
・関連コンテンツ