電子書籍を日本語など1000以上の言語で音声読み上げファイルに変換できる「ebook2audiobook」レビュー

Audibleのようなオーディオブック配信サービスは移動中などでも視聴できるため人気が高く、それゆえ電子書籍ファイルの所有者が手持ちの電子書籍を音声化したいという要望は結構あるはず。「ebook2audiobook」は電子書籍をファイルとして所持しているという前提はあるものの、低スペックなPCでも手軽に音声読み上げファイル化できるということなので、実際に確かめてみました。
DrewThomasson/ebook2audiobook: Generate audiobooks from e-books, voice cloning & 1158+ languages!
https://github.com/DrewThomasson/ebook2audiobook
◆特徴
公式GitHubによるとebook2audiobookの特徴は以下の通りです。
・サポートするTTSエンジン:XTTSv2・Bark・Fairseq・VITS・Tacotron2・Tortoise・GlowTTS・YourTTS
・サポートする電子書籍ファイル形式:.epub・.mobi・.azw3・.fb2・.lrf・.rb・.snb・.tcr・.pdf・.txt・.rtf・.doc・.docx・.html・.odt・.azw・.tiff・.tif・.png・.jpg・.jpeg・bmp
・テキストエリアで短いテキストを直接音声に変換
・テキストページを画像として含むファイルのOCRスキャン
・高品質なテキスト読み上げ
・自分の音声ファイルを使用した音声クローン作成(オプション)
・主要28言語を含め1158言語に対応
・低リソースでも動作可能
・オーディオブック出力フォーマット:aac・flac・mp3・m4b・m4a・mp4・mov・ogg・wav・webm
・SMLタグに対応:ブレイク・ポーズ・音声切り替えなどを細かく制御可能
・自分で学習させたモデルを使用したカスタムモデル(オプション・XTTSv2のみ)
・E2Aチームがトレーニングした微調整済みプリセットモデル
◆環境要件
公式GitHubによるとebook2audiobookは以下の環境下で実行することができます。
・RAM:最低2GB・推奨8GB
・VRAM:最低1GB・推奨4GB
・仮想化:Dockerに対応
・CPU・XPU:Intel・AMD・ARMに対応
・OS:Windows・macOS・Linuxに対応
・フレームワーク:CUDA・ROCm・JETSON・MPSに対応
なお最新のTTSエンジンはCPU上で動作させると処理速度が非常に遅くなるため、速度面が気になる場合はYourTTSやTacotron2といった低品質のTTSを使用するようにとのことです。
◆インストール
今回はWindows PCでローカルにリポジトリをクローンして直接実行することにします。まずは Git for Windowsをインストールしパスを通しておきます。次にコマンドプロンプトのアイコン上で右クリックして表示されるポップアップメニュから「管理者として実行」を選択します。

起動したコマンドプロンプトで以下のコマンドを実行してリポジトリをクローンしてカレントディレクトリとします。
git clone https://github.com/DrewThomasson/ebook2audiobook.git
cd ebook2audiobook
引き続き以下のコマンドを実行するとebook2audiobookが起動しますが、初回実行時などで依存するプログラム・ライブラリなどがない場合はすべてインストールします。
ebook2audiobook.cmdビルドを実行する場合があるためインストールには時間がかかりますが、しばらくすると自動的にブラウザにUI(http://127.0.0.1:7860/)が表示されインストール完了となります。

◆使い方
まずは電子書籍のファイルを用意する必要があります。今回は下記のGIGAZINE編集部の電子書籍作成に使用したepubファイルを使います。
Amazon.co.jp: 大阪日本橋のメイドカフェで店長となって店を盛り上げながら個性的なメイドたちと過ごすADV「電気街の喫茶店」プレイレビュー 電子書籍: GIGAZINE: Kindleストア
https://www.amazon.co.jp/exec/obidos/ASIN/B0GS457G4G/gigazine-22
今回は最低限の要件で実行可能と思われる以下の手順で実行しました。
1. 「Import」にepubファイルをドラッグアンドドロップして設定
2. 「Language」で日本語を選択
3. 「Voices」で音声を選択(左の再生アイコンでサンプル音声を確認可能)
4. 「Processor」で「CPU」を選択
5. 「Output」で「webm」を選択(「m4b」などの音声ファイルでも問題ありません)
6. 書籍アイコンのボタンをクリック

ボタンをクリックすると画面の右上に通知が並んで表示されます。epubファイル内に画像があるため「OCRを使うよ」という内容の警告が表示されていますが、ちゃんとテキストも含まれているので無視しても問題ない内容でした。

処理が開始されると「Status」のところに現在の処理内容と進捗状況が表示されます。予想時間は30分弱とのことなので気長に待ちます。

なお、使用したPCは以下の記事で取り上げたGEEKOMのGT13 Pro(Core i9-13900HK搭載)なのでスペック等の参考にしてください。
ミニPCのストレージを増設してみた&増設中にWi-Fi用の線が抜けたらこうやって戻す - GIGAZINE
https://gigazine.net/news/20260322-geekom-gt13-pro-sata-expansion/
処理が完了すると「Audiobook」欄が現れます。シークバーや再生ボタンなどが用意されているのでUI上で再生が可能です。

また、ダウンロードアイコンをタップすると音声ファイルとVTTファイルが表示され、それぞれの右側に表示されているサイズがリンクになっておりクリックすることで個別にダウンロードできます。

VTTファイルは字幕情報を持っており、VLCメディアプレイヤーなど字幕表示に対応しているプレイヤーで音声ファイルと同時に読み込むと字幕を表示しながら音声を再生することができます。

◆音声再生を聞いてみた感想
実際に生成した読み上げ音声ファイルとVTTファイルをVLCメディアプレイヤーで再生してみた様子は以下で確認できます。
「ebook2audiobook」で電子書籍を音声読み上げファイルに変換してみた。 - YouTube

・全体的には自然な音声である
・文章を細分して音声化するためか、継ぎ目がやや不自然なアクセントとなる
・何故か一部の外来語の発音がおかしい(例:「メイド」を「マデ」と読む)
・アラビア数字の読み方が奇妙で何と言っているのか全くわからない
◆まとめ
あまり高パフォーマンスなPCを使用せずTTSエンジンもデフォルトの組み込みエンジンを用いたものの、ebook2audiobookは電子書籍を十分聞き取れるレベルで日本語音声化してくれることが確認できました。手持ちの電子書籍ファイルの音声ファイル化を検討している方は是非ebook2audiobookを試してみてください。
・関連記事
好きな声で好きなセリフを喋らせられるローカルAI「Irodori-TTS」の使い方、日本語特化でローカル動作するので無制限に生成し放題 - GIGAZINE
Googleが日本語対応の音声合成AI「Gemini 3.1 Flash TTS」をリリースしたので使ってみた、音声タグで感情を制御可能 - GIGAZINE
Mistral AIが自分の声をクローンして使えるテキスト音声合成AIモデル「Voxtral TTS」を発表、9言語に対応し爆速読み上げ&軽量&オープンソースで利用可能 - GIGAZINE
無料でローカルAIモデルのメモリ使用量を最大80%削減し処理速度を2倍に向上させる「Unsloth Studio」、Windows・macOS・Linux対応でチャットだけならCPUのみでもOKでスマホでも動作可能 - GIGAZINE
日本語を含む10言語に対応した音声生成モデル「Qwen3-TTS」ファミリーがオープンソース化 - GIGAZINE
無料でずんだもんに5カ国語をしゃべらせる音声合成ソフト「Voiceger」登場、商用利用もOK - GIGAZINE
日本語にも対応したテキスト読み上げモデル「Eleven v3」で実際にGIGAZINEの記事を音声化するとこうなる - GIGAZINE
日本語・英語・中国語でたった3秒の音声から人の声を再現可能なMicrosoftの「VALL-E-X」を独自にトレーニングしたゼロショットモデルが公開中 - GIGAZINE
・関連コンテンツ
in AI, 動画, ソフトウェア, レビュー, Posted by log1c_sh
You can read the machine translated English article Review of 'ebook2audiobook,' a service t….







