人間の声を収集して言語別の音声データセットを作るプロジェクト「Common Voice」に参加してみた
ウェブブラウザのFirefoxを開発するMozillaは、SiriやAlexaのような音声認識ソフトウェアの開発に役立つ音声データセットを作成するために、世界に存在する言語別に音声データを集取するプロジェクト「Common Voice」を展開しています。このCommon Voiceが日本語音声の収集を開始していたので、実際に参加して音声データセットの作成に貢献してみました。
Common Voice
https://commonvoice.mozilla.org/ja
Mozilla Foundation - Mozilla Common Voice Adds 16 New Languages and 4,600 New Hours of Speech
https://foundation.mozilla.org/en/blog/mozilla-common-voice-adds-16-new-languages-and-4600-new-hours-of-speech/
Common Voiceのトップページはこんな感じ。Common Voiceには、お題として提出された文章を読む「話す」か、すでに録音された音声を聞いてチェックする「聴く」のどちらかの方法で参加することができます。
まずは、お題を読み上げる「話す」に参加するべくマイクアイコンをクリック。
すると、読み上げるべき文章が画面中央に保存されます。読み上げる音声を録音するにはマイクアイコンをクリック。
マイクの使用許可を求めるポップアップが表示されたら「許可する」をクリックします。
あとはマイクに向かってお題を読み上げるだけでOK。文章の読み上げが完了したら赤枠の停止ボタンをクリック。
すると、次に読み上げるべき文章が表示されるので、マイクボタンをクリックして録音を開始します。Common Voiceでは5種類の文章が提示されるので、こんな感じに続けて録音していけばOK。
お題の文章の読み方が分からない場合は、画面右下の「スキップ」をクリックすれば別の文章に切り替えることができます。
5種類の文章を録音し終えたら、録音した音声の確認画面が表示されます。この画面では、左端の再生マークをクリックして自分で録音した音声を確認し、矢印マークをクリックすることで録音し直すことができます。録音した音声の確認が完了したら、「送信」をクリック。
すると、貢献に対するお礼が表示されます。アカウントを作成すると、貢献度の把握が可能になるとのことなので、「ログイン/アカウント登録」をクリックしてアカウントを作成します。
FirefoxアカウントやGitHubアカウント、Googleアカウントでもログインできますが、今回は新たなアカウントを作成するべく入力欄にメールアドレスを入力して「Enter」をクリックしました。
次に、登録用メールを送信するために「Send me an email to continue」と記されたボタンをクリックします。
「Success」と表示されればメールの送信は完了。
入力したメールアドレスにMozillaからアカウント作成用メールが届いているので、オレンジ色のボタンをクリックしてアカウント作成を続行します。
プロフィール入力画面が表示されたら、ユーザー名・年齢・性別を入力し、プライバシーポリシーと規約を呼んでチェックを入れてから「保存」をクリックします。
後は、「同意する」をクリックすればアカウントの作成は完了です。
アカウントを作成したら、Common Voiceの画面右上にユーザー名が表示されます。ユーザー名の部分にマウスポインタを重ねるとダッシュボードやプロファイルを確認可能。今回はダッシュボードを確認してみます。
ダッシュボードでは、「音声の録音」と「音声の検証」に自分がどれだけ貢献したかを確認することが可能。他にも貢献の目標設定や、貢献度ランキングを確認することも可能です。
今度は「音声の検証」に参加したいので、画面右上のタイトルボタンをクリックしてCommon Voiceのトップ画面に戻ります。
次に、赤枠のアイコンをクリック。
すると、画面中央に文章が表示され、画面下側に再生ボタンが表示されます。この再生ボタンをクリックすると、他のユーザーが録音した文章を読み上げる音声が流れます。
音声を聞き、正しく文章が読み上げられている場合は「OK」、正しく読めていない場合は「NG」をクリックします。
上記の操作を5件分繰り返せば、「音声の検証」は完了です。さらに貢献を続ける場合は、画面下側の赤枠のボタンをクリックいして「音声の検証」を続けることができます。
Mozillaは2021年8月にCommon Voiceの対応言語としてバサ語やカザフ語を含む16の言語を追加しました。また、Common Voiceのコミュニティマネージャーを務めるヒラリー・ジュムア氏は「AmazonのAlexaやAppleのSiriなどの音声テクノロジーは、アフリカのネイティブ言語などを用いる何百万人もの人々に対してサポートを提供していません」「個人が音声データセットの作成に貢献できるようにすることで、地球上のすべてのコミュニティが音声テクノロジーにアクセスし、それらの利点を得られるようになります」と述べ、Common Voiceへの参加を呼びかけています。
・関連記事
Mozillaによる18言語・1361時間にもおよぶパブリックドメインの音声データセット「Common Voice」 - GIGAZINE
Google Chrome上でマイクから録音した声をリアルタイムで文字に書き起こしてくれる「The Recording Studio」 - GIGAZINE
無料で文章から自動で読み上げ音声を合成してくれるソフト「VOICEVOX」を使ってみた - GIGAZINE
誰でも無料でブラウザから簡単に美少女ボイスになれる「VOICE AVATAR 七声ニーナ」を実際に使ってみるとこんな感じ - GIGAZINE
誰でも100種類の声に変換できるAIボイスチェンジャーを使ってみたらこんな感じ - GIGAZINE
ディープラーニングで誰でも簡単に「結月ゆかり」の声になれる音声変換技術が開発される - GIGAZINE
・関連コンテンツ