2025年03月21日 12時40分レビュー

OpenAIが日本語にも対応した音声文字起こしモデルやテキスト読み上げモデルをリリース、無料で読み上げモデルを試せるデモも登場したので使ってみた

OpenAIが音声の文字起こしが可能なAIモデル「gpt-4o-transcribe」および「gpt-4o-mini-transcribe」をリリースすると同時に、テキストを読み上げる音声生成モデル「gpt-4o-mini-tts」もリリースしました。無料でgpt-4o-mini-ttsを試せるデモが用意されているので使ってみました。

Introducing next-generation audio models in the API | OpenAI
https://openai.com/index/introducing-our-next-generation-audio-models/

OpenAI.fm
https://www.openai.fm/

音声からテキストに変換する「gpt-4o-transcribe」および「gpt-4o-mini-transcribe」モデルはそれぞれGPT-4oおよびGPT-4o-miniがベースとなっており、トレーニングの際にデータセットを利用した事前トレーニングだけでなく、強化学習を活用することで認識精度を最先端のレベルまで引き上げることに成功したとのこと。同等のモデルに比べ、特に複雑な音声認識シナリオに強いとされています。

また、同時にリリースされた音声生成モデル「gpt-4o-mini-tts」ではモデルに「どのような雰囲気の音声を生成するか」を指示できるようになったとのこと。例えば「ドラマチックに」や「中世の騎士風に」などを指示可能です。

OpenAIは「OpenAI.fm」というデモサイトを用意しており、「gpt-4o-mini-tts」の実力を簡単に試せるようになっています。サイトにアクセスするとこんな感じ。下部の「PLAY」をクリックすると音声が生成されます。

アクセス時の初期設定は声が「Coral」、雰囲気が「Dramatic」となっていました。この設定で生成すると以下の音声になりました。

声を「Ash」に変更して再び再生してみます。

先ほどは女性の声でしたが、今度は男性の声で音声が生成されました。

プロンプトを変更することも可能。今回の記事の一部を入力してみます。

英語と日本語が混じっていましたが、正確に読み上げてくれました。

雰囲気を「Robot」にすると雰囲気のプロンプトが変更されます。

抑揚をあまり付けずに読み上げてくれました。なぜか英語の発音がネイティブっぽくなっています。

右上のスライダーを切り替えるとPython・JavaScript・cURLでOpenAIのAPIを利用するためのコードが表示されます。API経由でgpt-4o-mini-ttsを使用したい場合、このコードをコピペしてスクリプトや雰囲気を編集するのが簡単そうです。

今回リリースされた3つのモデルはいずれもトークン数単位で課金されるものの、OpenAIのドキュメントには音声の時間ごとの料金の目安が掲載されています。記事作成時点では、「gpt-4o-mini-tts」は生成された音声1分あたり約0.015ドル(2.24円)、「gpt-4o-transcribe」は処理した音声1分あたり約0.006ドル(0.89円)、「gpt-4o-mini-transcribe」は処理した音声1分あたり約0.003ドル(0.45円)となっていました。