広告

国産の音声認識エンジン「AmiVoice」はやっぱり日本語に強いのか?5つのサービスを比較してみた


音声認識エンジンは声を認識して文字へと書き起こしてくれるツールで、いくつものIT企業からさまざまなエンジンが登場しています。しかし、音声認識エンジンを開発している企業の多くはアメリカなど英語圏の国を本拠地としており、音声認識エンジンについても英語の聞き取りメインでの開発です。日本企業が開発している国内シェアNo.1の音声認識エンジン「AmiVoice」は日本語の音声認識に強いエンジンとのことなので、本当に日本語の聞き取りの精度で勝っているのかをいくつかの音声認識エンジンと実際に比較して確かめてみました。

Speech to Text - AmiVoiceの音声認識API・SDK(アミボイス)
https://acp.amivoice.com/


AmiVoice API-開発者向け音声認識エンジン(アミボイス)
https://acp.amivoice.com/amivoice_api/


AmiVoice API 利用申し込み
https://acp.amivoice.com/amivoice_api/regist/


・目次
◆1:AmiVoiceに登録してセットアップ
◆2:サンプルプログラムのセットアップ
◆3:AmiVoiceの音声認識の精度をチェック&ChatGPTで要約
◆4:別の音声認識エンジンと比較してみた
◆5:まとめ


自分で比較を行うための方法が不要であれば、目次の「◆3:AmiVoiceの音声認識の精度をチェック&ChatGPTで要約」へ進むと編集部の比較結果を手早く確認することができます。

◆1:AmiVoiceに登録してセットアップ
まずはAmiVoiceのAPIを利用するための手続きを行います。AmiVoiceのトップページへ行き、「音声認識APIを利用開始」をクリック。


メールアドレスを入力し、「利用規約とSLAに同意する」にチェックを入れて「送信」をクリックします。


メールを確認するように指示されました。


メールでユーザー登録用のURLが届いているので、URLをブラウザで開きます。


希望するユーザーIDやパスワード、氏名、会社名などの情報を入力していきます。


個人情報の取り扱いについて「同意する」にチェックを入れて「確認」をクリック。


入力した内容を確認します。


確認できたら最下部の「登録する」をクリック。


登録に成功しました。「ログインページ」をクリックして移動します。


登録したIDとパスワードを入力し、「ログイン」をクリック。


マイページの左にあるメニューから「プラン申込」をクリックします。無料でも多数の認識エンジンをそれぞれ60分まで利用することが可能ですが、利用にあたってクレジットカードの登録が必要なので、「登録はこちら」と書かれたリンクをクリック。


クレジットカード情報の取り扱いはGMOペイメントゲートウェイが行うため、いったんAmiVoiceのサイトを離れます。「移動する」をクリック。


クレジットカードの情報を入力して「この内容を保存」をクリック。


内容を確認して「保存する」をクリックします。


これで登録完了です。「マイページに戻る」をクリック。


マイページに「エンジン一覧」のタブが表示されるのでクリックすると下図のような画面になります。今回、GIGAZINE読者向けに特別なクーポンが発行されているので、「クーポンを適用」をクリック。


クーポンコード欄に「Svdc1YUHmN」と入力して「適用する」をクリックします。AmiVoiceにはエンジンが13種類あって、それぞれ、品質向上用にデータを保存する「ログ保存あり」版、データをサーバーに残さない「ログ保存なし」版が存在します。今回のクーポンは、各エンジンをそれぞれ10時間無料で利用できるようになるものなので、全エンジンのログ保存あり・なし版を合わせると合計で260時間利用できることになります。なお、クーポンは適用した月とその翌月のみ有効です。


クーポンを適用すると上部に「クーポンを適用しました」と表示され、それぞれのエンジンの欄にも「クーポン適用済み」と表示されました。これでAmiVoiceの準備は完了です。


◆2:サンプルプログラムのセットアップ
AmiVoiceではHTTPで音声ファイルを送信して解析する形式のAPIと、WebSocketを使用してリアルタイムに音声認識を行うAPIが用意されており、さまざまなアプリに組み込んで使用することが可能です。マニュアルで実装方法が解説されているのですが、今回は認識精度の確認ということで、公式で用意されているサンプルプログラムを利用します。クライアントライブラリのリポジトリにアクセスし、「Code」のメニューから「Download ZIP」をクリック。


ダウンロードしたZIPファイルを選択し、右上にある「すべて展開」をクリック。


「展開」をクリックします。


展開先のフォルダにある「Hrp」フォルダの「javascript」フォルダにある「hrp.html」が今回使用するファイルです。


そのままブラウザで開くと下図の通り。一見そのまま使えそうですが、注意事項を見てみると「サーバーに配置する必要がある」と書かれていました。


今回はNode.jsを利用してサーバーを立ち上げます。Node.jsのダウンロードページへ行き、「Prebuilt Installer」タブからインストーラーをダウンロード。


ダウンロードしたmsiファイルをダブルクリックして実行します。


Node.jsのセットアップウィザードが起動するので「Next」をクリック。


ライセンスに同意して「Next」をクリックします。


インストール先のフォルダを確認して「Next」をクリック。


何をインストールするのかを設定できますが、今回は特に何も変更せず「Next」をクリックすればOK。


「Next」をクリック。


「Install」をクリックします。


インストールが完了したら「Finish」をクリックしてインストーラーを閉じます。


Node.jsをインストールできたらスタートメニューに「cmd」と入力し、検索結果に出てくるコマンドプロンプトをクリックして起動。


AmiVoiceのサンプルアプリの「hrp.html」があるフォルダのアドレスをコマンドで使うので、コピーしておきます。


コマンドプロンプトで「cd [コピーしたアドレスを貼り付け]」というコマンドを実行し、続いて「npx http-server」と入力してEnterキーで実行。サーバーが起動してアドレスが表示されます。


上で表示されたアドレスをブラウザに入力し、末尾に「/hrp.html」と入力するとサーバー経由でサンプルプログラムを表示することができました。


ワンタイムAppKeyの発行に使うサービスIDとサービスパスワードはAmiVoiceのマイページの「接続情報」のタブで確認できます。AmiVoiceのアカウントのID・パスワードとは異なるものになっています。


サービスIDとサービスパスワードを入力してから「サービス認証キーの取得」をクリックすると「APPKEY」欄に認証キーが挿入されます。この状態で音声データファイルを送信すれば認識結果が表示されるというわけです。


◆3:AmiVoiceの音声認識の精度をチェック&ChatGPTで要約
音声認識の精度を確かめるため、下記の通りスクリプトを用意して読み上げてみました。

日報。日付、2024年9月17日。氏名、山田 太郎。所属、外回り営業チーム。

本日の業務内容:
1件目。株式会社エービー社の訪問。訪問時間は、10時から11時30分まで。商談内容は、新製品の「スゴクアタラシイ」シリーズの提案。担当者は、営業部の田中部長。商談の反応としては、「スゴクアタラシイ」シリーズの性能に興味を示されましたが、価格面での検討が必要とのことでした。競合他社製品と比較したランニングコストの詳細な資料が求められました。次回の対応として、コスト分析レポートを作成し、来週中にメールで送付する予定です。また、次回の商談を9月24日に設定しました。

2件目。株式会社シーディー社の訪問。訪問時間は、14時から15時30分まで。商談内容は、既存製品の「イイカンジシステム」の導入状況の確認と、追加オプションの提案です。担当者は、IT部の鈴木課長。商談の反応は、「イイカンジシステム」の導入は順調で問題ないとのこと。ただし、追加オプションは予算の関係で保留となりました。年末に予算が増加する可能性があるとのことで、その際に再提案することになりました。次回対応として、10月末に再訪する予定です。また、定期的にメールでフォローアップを行う予定です。

3件目。株式会社エフ社に電話でフォローアップ。時間は16時から16時30分まで。連絡内容は、先月の商談のフォローと、新たな提案の打診です。担当者は、購買部の佐藤次長。反応としては、今期は予算の関係で大きな購入は難しいが、次期の予算編成時に再検討したいとのことでした。次期予算確定後に連絡をもらう約束を取り付けました。次回の対応としては、12月初旬に再アプローチする予定です。また、来週に新しい製品情報をメールで送付します。


録音した音声ファイルは以下の通り。


サンプルプログラムで音声ファイルを認識させてみると、音声データを送信してから数秒で認識結果が表示されました。


認識結果は以下の通り。途中で「えー」などの言いよどんだ部分があったもののAmiVoiceの機能によって削除されているほか、適宜句読点が挿入されることで読みやすさが向上しています。

日報日付2024年9月17日氏名山田太郎所属外間営業チーム本日の業務内容1件目、株式会社B社の訪問訪問時間は10時から11時30分まで商談内容は、新製品のすごく新しいシリーズの提案担当者は営業部の田中部長商談の反応としてはすごく新しいシリーズの性能に興味を示されましたが、価格面での検討が必要とのことでした。競合他社製品と比較したランニングコストの詳細の資料を求められました。次回の対応としてコスト分析レポートを作成し、来週中にメールで送付する予定です。また次回の商談を9月24日に決定しました。2件目株式会社シーシービー者の訪問訪問時間は14時から15時30分まで商談内容は、既存製品のいい感じのシステムの導入状況の確認と、米国社の提案です。担当者はIT部の鈴木課長商談の反応は良い感じシステムの導入が順調で問題ないとのこと。ただし追加オプションは予算の関係で保留となりました。年末に予算が増加する可能性があるとのことなので、その際に再提案することになりました。次回対応として10月末に再訪する予定です。また定期的にメールでフォローアップを行う予定です。3件目株式会社M社に電話でフォロー時間は16時から16時30分まで連絡内容は先月の商談の頃と新たな提案の打診です。担当者は購買部の佐藤次長反応としては、今季は予算の関係で大きな公園は難しいが次回の予算編成時に再検討したいとのことでした。次期予算確定後に連絡をもらう約束を取り付けました。次回な、次回の対応としては、12月中旬に再アプローチする予定です。また来週に新しい製品情報をメールで送付します。


ChatGPTに「以下のテキストを日報形式に整えてください」とお願いして内容をまとめてもらいました。


認識結果の質が良いと、ChatGPTに内容を読み取らせたりするような後処理がスムーズに進むことがわかります。


後半はこんな感じ。固有名詞以外で修正が必要な部分はほとんどありませんでした。


◆4:別の音声認識エンジンと比較してみた
同じ音声ファイルを業界トップの音声認識サービスで認識させてみました。それぞれのサービスの準備についてはAmiVoiceと比べて難易度が大きく変わることはなく、それぞれのサービスが用意しているドキュメントに従って大体同じくらいの時間で完了しました。

・音声認識サービスAの認識結果
言いよどみが文字に反映されてしまっていますが、全体的に見ればAmiVoiceとほぼ同じくらいの性能と言えそうです。

え日本日付二千二十四年九月十七日氏名山田太郎所属外回り営業営業チーム本日の業務内容一件目株式会社AB社の訪問訪問時間は十時から十一時三十分まで。商談内容は新製品のすごく新しいシリーズの提案。担当者は営業部の田中長商談の反応としては、すごく新しいシリーズの性能に興味を示されましたが、価格面での検討が必要とのことでした。競合他社製品と比較したランニングコストの詳細の資料を求められました。次回の対応としてコスト分析レポートを作成し、来週中にメールで送付する予定です。また、次回の商談を九月二十四日に設定しました。二件目株式会社CD社の訪問訪問時間は十四時から十五時三十分まで。相談内容は既存製品のいい感じのシステムのえー導入状況の確認と通告書の提案です。担当者はIT部のスズキ課長商談の反応はいい感じ?システムの導入が順調で問題ないとのこと。ただし、えーツイコオプションは予算の関係で保留となりました。年末に予算が増加する可能性があるとのことなのでえーその際に再提案することになりました。次回対応として十月末に再放送する予定です。また、定期的にメールでフォローアップを行う予定です。三件目株式会社A社に電話でフォローアップ。時間は十六時から十六時三十分まで。連絡内容は先月の相談のフォローと新たな提案の写真です。担当者は購売部の佐藤次長反応としては、今期は予算の関係で大きな講演は難しいが、え、次回の予算編成時に再検討したいとのことでした。え、時期予算確定後に連絡をもらう約束を取り付けました。次回の次回の対応としては、十二月中旬に再アプローチする予定です。また、来週に新しい製品情報をメールで送信します。


・音声認識サービスBの認識結果
言いよどみが含まれる上に句読点の挿入もありません。その他の部分ではAmiVoiceと比較してすぐに分かるような性能差は感じませんでした。

ええ 日報 日付 2020年9月17日 氏名 山田太郎 所属 外務 営業チーム 本日の業務内容 1件目 株式会社エービー社の訪問 訪問時間は10時から11時30分まで商談内容は 新製品のすごく 新しいシリーズ の提案担当者は 営業部の田中部長 商談の反応としてはすごく 新しいシリーズの性能に興味を示されましたが 価格面での検討が必要とのことでした 競合他社製品と比較したランニングコストの詳細の資料を求められました 次回の対応としてコスト分析 レポートを作成し 来週中にメールで送付する予定です また次回の商談を 9月24日に設定しました 2件目 株式会社 CD 社の訪問 訪問時間は14時から15時30分まで商談内容は既存製品のいい感じの システムのえ 導入状況の確認と税込社の提案です 担当者は IT 部の鈴木課長 商談の反応はいい感じ システムの導入が順調で問題ないとのこと ただしえ ツイート オプションは予算の関係で保留となりました 年末に予算が増加する可能性があるとのことなのでえその際に 再提案することになりました 次回対応として 10月末に再訪する予定です また 定期的にメールでフォローアップを行われる予定です 3件目 株式会社ウェブ社に電話でフォローアップ 時間は 16時から16時30分まで連絡は先月の商談の頃と新たな提案の打診です 担当者は 購買部の佐藤次長 反応としては 根拠は予算の関係で大きな 婚姻は難しいがえ 次回の予算編成時に再検討したいとのことでした 次期予算 確定後に連絡をもらう約束を取り付けました 次回の次回の対話としては12月中旬に再雇用する予定です また来週に新しい製品情報をメールで送付します


・音声認識サービスCの認識結果
言いよどみの他はAmiVoiceと似た性能と言って良さそうです。

ええ日本日付2020年9月17日指名山田太郎所属外回り営業チーム本日の業務内容1件目株式会社AB社の訪問訪問時間は10時から11時30分まで。商談内容は新製品のすごく新しい。シリーズの提案担当者は営業部の田中部長。商談の反応としてはすごく新しいシリーズの性能に興味を示されましたが、科学面での検討が必要とのことでした。要望他社製品と比較したランニングコストの詳細の資料を求められました。次回の対応としてコスト分析レポートを作成し、来週中にメールで送付する予定です。また、次回の商談を9月24日に設定しました。2件目、株式会社CD社の訪問訪問時間は14時から15時30分まで。商談内容は既存製品のいい感じのシステム。のええ、導入状況の確認と。追告書の提案です。担当者はIT部の鈴木課長。商談の反応はいい感じ。システムの導入が順調で問題ないとのこと。ただし、ええ対抗オプションは予算の関係で保留となりました。年末に予算が増加する可能性があるとのことなので、ええ、その際に再提案することになりました。次回対応として10月末に再放する予定です。また、定期的にメールでフォローアップを行う予定です。3件目、株式会社エブ社に電話でフォローアップ時間は16時から16時30分まで。連絡内容は先月の商談のフォローと新たな提案の打診です。担当者は購買部の佐藤次長反応としては、今期は予算の関係で大きな抗議が難しいが、ええ、次回の予算編成時に再検討したいとのことでした。ええ、次期予算確定後に連絡をもらう約束を取り付けました。次回の次回の対応としては、12月初旬に再アプローチする予定です。また、来週に新しい製品情報をメールで送付します。


・音声認識サービスDの認識結果
今回比較した中では唯一明確に性能の差を感じる結果に。

エー 日本 日付 二千 二十年 九月 十 七日 氏名 山田 太郎 所属 外 マレー 預金 も 本日 の 業務 内容 一件 目 株式会社 ABC の 訪問 訪問 時間 は 十時 から 十一時 三十分 まで 商談 内容 は 新製品 の すごく 新しい シリーズ の 提案 担当者 は 営業部 の 科学 の 情報 商談 の 反応 と して は すごく 新しい シリーズ の 性能 に 興味 を 示され ました が 科学 面 で の 検討 が 必要 との こと でした 競合 他社 製品 と 比較 した ランニング コスト の 詳細 治療 を 求められ ました 次回 の 対応 と して コスト 分析 レポート を 作成 し 来週中 に 命令相 を する 例 です また 次回 の 商談 を 九月 二十 四日 に 決定 しました 二件 目 株式会社 CD 社 の 訪問 訪問 時間 は 十 四時 から 十 五時 三十分 まで 商談 内容 は 既存 製品 の いい加味 の システム の エー どういう 状況 の 確認 と 全国者 の 提案 です 担当者 は IT 部 の 鈴木 課長 商談 の 反応 は 二巻 システム の 導入 が 順調 で 問題 ない との こと ただし エー 追告書 は 予算 の 関係 で これ と なりました 年末 に 予算 が 増加 する 可能性 が ある との こと なので エー その際 に サイティア する こと に なりました 次回 対応 と して 十月末 に 再放 する 予定 です また 定期的 に メール で フォロワー を 行われて です 三件 目 株式会社 M 社 に 電話 の 法 アップ 時間 は 十 六時 から 十 六時 三十 まで 連絡 内容 は 先月 の 商談 の 方 と 新たな ピアノ の 多心 です 担当者 は 公約 の 佐藤 でしょう 反応 と して は 今季 は 予算 の 関係 で 大きな 行為 が 難しい が エー 次回 の 予算 編集時 に 再検討 したい との こと でした 時期 予算 確定 後 に インデコ を もらえる 規則 を 取り付け ました 次回 の 次回 の 対話 と して は 十二月 初旬 に 最悪 地球 です また 来週 に 新しい 製品 情報 を メール で そう します


音声認識サービスDの認識結果をAmiVoiceの時と同様、ChatGPTに日報形式へ整理してもらうと下図のようになりました。上のテキストからここまで情報を引き出せるChatGPTの力には驚きを隠せませんが、さすがのChatGPTでも元のテキストが明確に間違っている場合はどうにも修正できないため、人力で修正する必要があります。


なお、今回使用した各種サービスの基本データは以下の通り。料金がドル建ての部分は記事作成時点の相場に基づき1ドル=144円の計算で円に換算しています。AmiVoiceはデータのログ保存ありの場合であれば圧倒的な低価格で利用する事ができ、ログ保存無しの場合でも144円と最安値付近をキープ。その上多くのサービスでは音声データの無音部分も課金の対象になりますが、AmiVoiceの場合は発話区間だけが課金対象で、見た目以上に費用を抑えられます。

 AmiVoiceサービスAサービスBサービスCサービスD

料金(60分あたり)

90円

207円138円144円172円
開発中のサポート無料3758円~3758円~3758円~無料
課金対象発話区間のみ全ての音声データ全ての音声データ全ての音声データ全ての音声データ


今回の比較対象の中で唯一の日本企業であり、APIの導入時・運用開始後を問わず、APIについての技術的なサポートが無償となっていて日本語での手厚いサポートを受けられるのもポイントです。専用の環境やエンジンのカスタマイズが必要な場合でも対応可能で、クラウドだけでなくオンプレミスへの環境構築も行えるとのこと。

◆5:まとめ
今回の比較では、海外企業が展開する各サービスの日本語の認識精度が向上してきており、日本語であっても「AmiVoiceだけが明確に精度が高い」とは言えませんでした。しかし「言いよどみ(フィラー)の削除」や「句読点の追加」によって認識結果に手を加えずそのまま読んだときの読みやすさは圧倒的にトップであり、コスパやサポートの面では明確に優れています。

また、AmiVoiceには汎用エンジンのほか、医療用・金融用など特定分野に特化したエンジンも用意されています。追加で製品名や固有名詞を登録して特定の単語の認識率を上げることも可能。エンジンは合計で26個もあり、それぞれのエンジンには毎月60分の無料枠があって手軽に試せます。さらにクーポンコード欄に「Svdc1YUHmN」と入力すると60分ではなく10時間分利用が無料に。クーポンは適用した月と翌月のみ有効で、入力期限は2024年12月末です。

日本企業ということでサポートも手厚いので、アプリに音声認識を組み込みたいと考えている場合はトライしてみてください。

Speech to Text - AmiVoiceの音声認識API・SDK(アミボイス)
https://acp.amivoice.com/


AmiVoice API-開発者向け音声認識エンジン(アミボイス)
https://acp.amivoice.com/amivoice_api/


AmiVoice API 利用申し込み
https://acp.amivoice.com/amivoice_api/regist/

この記事のタイトルとURLをコピーする

in レビュー,   ソフトウェア,   ネットサービス,   ウェブアプリ,   広告, Posted by log1d_ts

You can read the machine translated English article here.