OpenAIの文字起こしAPIは音声データを2倍速か3倍速にすると安く使える

OpenAIは多様なAI機能をAPIを介して展開しており、音声データを文字起こししてテキストデータとして出力するAPIも提供しています。この文字起こしAPIについて、ソフトウェアエンジニアのジョージ・マンディス氏が「音声データを2倍速か3倍速にすると、品質を損なうことなくコストを抑えられる」と報告しています。
OpenAI Charges by the Minute, So Make the Minutes Shorter • George Mandis
https://george.mand.is/2025/06/openai-charges-by-the-minute-so-make-the-minutes-shorter/
OpenAIの文字起こしAPIの利用料金は以下の通り。入力トークン数100万ごとの料金は高性能な「gpt-4o-transcribe」が6ドル(約864円)で、控えめな性能の「gpt-4o-mini-transcribe」は3ドル(約432円)です。また、音声データ1分当たりの推定コストは「gpt-4o-transcribe」が0.006ドル(約0.86円)で、「gpt-4o-mini-transcribe」は0.003ドル(約0.43円)です。つまり、OpenAIの文字起こしAPIは音声データの再生時間を短くしてトークンを少なくするほど安く使えるというわけです。

Whisperの場合、トークンごとではなく時間ごとに料金が設定されており、音声データ1分ごとに0.006ドル(約0.86円)で使えます。Whisperも再生時間を短くするほど安く利用可能です。

音声データに含まれる内容を保ったまま再生時間を短くするには、「発言ごとの間などの不要部分をトリミングする」という方法もありますが、マンディス氏は「トリミングせず2倍速や3倍速に加工する」という方法で文字起こし品質を損なわずにコストを削減することに成功しました。
マンディス氏はもともと「約40分間の講演の音声データ」を文字起こしするつもりでしたが、1倍速の状態ではトークン数が多すぎて文字起こしできなかったとのこと。そこでffmpegを使って音声データを2倍速に加工して文字起こしした結果、安価かつ高品質な文字起こしが可能であることに気付いたそうです。
「約40分間の講演の音声データ」を2倍速や3倍速に加工した際のトークン数と料金をまとめた表が以下。
| ○倍速 | 再生時間 | トークン数 | 入力コスト | 出力コスト |
|---|---|---|---|---|
| 1倍速 | 2372秒 | 入力不可 | 入力不可 | 入力不可 |
| 2倍速 | 1186秒 | 1万1856 | 0.07ドル(約10.09円) | 0.02ドル(約2.88円) |
| 3倍速 | 791秒 | 7904 | 0.04ドル(約5.76円) | 0.02ドル(約2.88円) |
2倍速と3倍速では品質を損なわずに文字起こしが可能でしたが、4倍速に加工して文字起こしすると品質が急激に悪化し、同じフレーズを何度も繰り返し出力するようになってしまいました。

上記の検証結果から、マンディス氏は「OpenAIの文字起こしAPIを使う際は、音声データを2倍速か3倍速に加工するとコストを抑えられる」と結論付けています。
・関連記事
無料で自動文字起こし&テキストで音声編集も可能な「audapolis」を使ってみた - GIGAZINE
無料&セルフホスト可能なブラウザ上で操作できる文字起こしツール「Transcription Stream」レビュー - GIGAZINE
文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK - GIGAZINE
無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ - GIGAZINE
OpenAIが日本語にも対応した音声文字起こしモデルやテキスト読み上げモデルをリリース、無料で読み上げモデルを試せるデモも登場したので使ってみた - GIGAZINE
ウェブブラウザのみで無料の録音・文字起こしができる「EasyRec.app」を使ってみた - GIGAZINE
スマホで録音しながらリアルタイム文字起こし&録音内容の要約もできる「Xiaomi 15」のAI機能を使ってみたよレビュー、打つのが面倒な長文の自動生成機能もあり - GIGAZINE
Appleの新しい文字起こしAPI「SpeechAnalyzer」がスピードテストでOpenAIのWhisperを圧倒 - GIGAZINE
・関連コンテンツ
in ソフトウェア, Posted by log1o_hf
You can read the machine translated English article OpenAI's transcription API can be us….







