ソフトウェア

AIを駆使した音声翻訳システムをMetaが公開、テキストデータの収集が困難なマイナー言語にも対応


Facebookの親会社であるMetaの人工知能(AI)研究部門であるMeta AIが、口頭での会話をほぼリアルタイムで翻訳可能なAIを用いた音声翻訳システムを開発し、オープンソースで公開しています。

A new AI-powered speech translation system for Hokkien pioneers a new approach for a primarily oral language
https://ai.facebook.com/blog/ai-translation-hokkien/

Using AI to Translate Speech For a Primarily Oral Language | Meta
https://about.fb.com/news/2022/10/hokkien-ai-speech-translation/

(1/3) Until now, AI translation has focused mainly on written languages. Universal Speech Translator (UST) is the 1st AI-powered speech-to-speech translation system for a primarily oral language, translating Hokkien, one of many primarily spoken languages. https://t.co/onYKQ8uoKN pic.twitter.com/Iy8MRMOypQ

— Meta AI (@MetaAI)


AIを利用した音声翻訳システムは、基本的にテキストを翻訳することに焦点を当ててきました。しかし、地球では3500種類近い言語が話されており、それらの多くが表語文字を持たず口語でのみ扱われています。そのため、翻訳AIモデルをトレーニングするために必要となる「大量のテキストデータ」を用意できない言語も多数存在するとMetaは指摘。


この問題に対処するため、Metaは中国の福建州で使用されている福建語向けの初のAIを用いた音声翻訳システムを構築しました。福建語は主に口頭で使用される言語であり、中国の福建州では広く話されているものの、標準的な表語文字を持ち合わせていないため、テキストデータを用意することが難しい言語でもあります。

福建語は中国の福建州だけでなく、シンガポールやフィリピン、台湾、マレーシアといった地域でも使用されている言語であり、全世界で4600万人近くが話しています。


この福建語向けのAI翻訳システムについて、Metaは「何百もの口頭言語をリアルタイムで翻訳することを目指すUniversal Speech Translatorプロジェクトの一部であり、新しいAIメソッドを開発し、最終的には福建語以外の多くの言語でもリアルタイムである言語から別の言語に翻訳することが可能になることを目指しています。我々は音声コミュニケーションにより、人々がどこにいても、例えメタバース内であっても、人と人を結びつけることができるようになると信じています」と記しました。

Metaが開発した福建語向けのAI翻訳システムを用いたリアルタイム翻訳がどんなものなのかは、以下の動画を見れば一発でわかります。


多くの音声翻訳システムは文字起こしに依存していますが、口頭言語の中には表語文字が存在しないものも存在します。そのため、Metaは福建語向けのAI翻訳システムにおいて、文字起こしベースではなく音声ベースでの翻訳を行うことを目指しました。

そのため、入力音声を音響音の列に変換する音声単位変換を利用することで、そこから波形を生成したり、関連言語(福建語の場合は北京語)のテキストに依存したりと、さまざまなアプローチで音声ベースの翻訳に取り組みました。


Metaの福建語AI翻訳システムはまだ開発途上にあり、1度に1つの文しか翻訳することができません。ただし、Metaは「言語間の同時翻訳が可能になる未来への第一歩となります。我々の開発した技術は、他の多くの表語文字を持つ言語だけでなく口頭言語にも拡張可能です」と記し、今後の発展に期待を抱いています。

さらに、Metaは福建語AI翻訳システムの発表と同時に、「LASER」と呼ばれる革新的な自然言語処理ツールキットにより開発された、音声から音声への翻訳システムを構築する際に役立つ大規模データセットの「SpeechMatrix」もリリースしています。SpeechMatrixは他の研究者が口頭言語から別の言語に音声ベースで翻訳することが可能な翻訳システムを開発することを可能にするためのツールであり、136の言語ペアと合計41万8000時間分の音声データから成り立つデータセットです。

SpeechMatrixは教師なし学習をベースとしており、人間による注釈なしで高品質の「音声から音声への翻訳」が可能なAIモデルを構築することが可能なため、通常はシステムをトレーニングするために必要となる「ラベル付きトレーニングデータ」がない言語でも翻訳システムの構築が可能となります。

なお、Metaは福建語翻訳モデル・評価データセット・研究論文をオープンソースとして公開しています。

この記事のタイトルとURLをコピーする

・関連記事
Metaが200の言語で機能するAI翻訳モデルをオープンソース化、 メタバースで世界中の人々が交流できることを目指す - GIGAZINE

Metaがすべての言語をリアルタイムで翻訳するAI「バベルフィッシュ」を開発中 - GIGAZINE

Google翻訳のAIは独自の「中間言語」を習得して「学習してない言語間の翻訳」すら可能な段階に突入 - GIGAZINE

ディープラーニングで翻訳プログラムを0から作った人がその仕組みを複雑な数式ではなく図で解説するとこうなる - GIGAZINE

逆翻訳を利用してAIをバイリンガルにする新しい翻訳技術が開発中 - GIGAZINE

めちゃくちゃ精度が高いと話題の機械翻訳「DeepL翻訳」に日本語の翻訳機能が登場したので実際に使ってみた - GIGAZINE

in ソフトウェア,   動画, Posted by logu_ii

You can read the machine translated English article here.