レビュー

YouTubeムービーの内容を自動的に文字起こししてくれる「AIメーカー」の文字起こし機能を使ってみました

by Green Chameleon

誰でも気軽にAIを使える&作れるAIプラットフォーム「AIメーカー」から文字起こし機能が新たに登場しました。ムービーや音声ファイルのアップロードで文字起こししてくれるのはもちろんのこと、YouTubeのURLをコピペするだけでも内容を全自動で書きだしてくれるとのことだったので、実際に使ってみました。

「AIメーカー」で画像・音声・動画ファイル、YouTube、録音から文字起こしを行う議事録AIを作ってみた
https://qiita.com/2zn01/items/97b4f6dcbbfc4119c282

みんな~!「AIメーカー」で文字起こし機能をリリースしたよー!
以下の方法で簡単に文字起こしを試せるので、ぜひ使ってみて~!!
YouTubeから文字起こし
画像、音声、動画から文字起こし
️録音で文字起こし

AIをうまく使って少しでも面倒な作業から解放だぁ~!https://t.co/qo13Wo6Yli pic.twitter.com/gsRigVROnK

— 2z@みんなのAI「AIメーカー」開発中 (@2zn01)


AIメーカーの文字起こし機能を使うには、まず以下のページにアクセスし「Twitterでログイン」をクリック。

AIメーカー
https://text.aimaker.io/recognize/


Twitterのアカウントとパスワードを入力して「ログイン」をクリック。


こんな感じのページが表示されます。


文字起こし機能はさまざまな言語に対応しており、英語の中でもオーストラリア・カナダ・ガーナ・イギリスなど、複数の種類が選べました。今回はデフォルトである日本語のまま使ってみます。


文字起こし機能は3種類あり、1つは「画像・音声・動画ファイルから文字起こし」というもの。

無料で文字起こしできるのは10MB/5分以内のファイルまでで、対応ファイルは以下の通り。

JPEG/PNG/GIF/WAV/MP3/WMA/AAC/M4A/FLAC/OGG/MP4/AVI/FLV/MOV/WMV


もう1つは「YouTubeから文字起こし」


3つ目はPCやスマートフォンのマイクを使った「録音して文字起こし」です。


一体どのくらいの精度で文字起こしができるのか?ということで、まずはAmazonの最新スマートスピーカー「Amazon Echo Spot」と話しているところのYouTubeムービーを文字起こししてみます。

「Amazon Echo Spot」を実際に音声で操作するところ - YouTube


URLをペーストして「YouTubeから文字起こしする」をクリック。


「指定したYouTubeで文字起こしを行ってよろしいですか?」と聞かれるので「OK」をクリック。


しばらく待機。文字起こしの処理はブラウザを閉じても中断されないとのことで、1分4秒のムービーの文字起こしにかかった時間は約35秒でした。


すると、こんな感じでムービー中の会話が文章化されました。一部、「未明」が「綺麗」になっていたり、「協議」が「競技」になっていたりするので多少の調整は必要ですが、おおむね正しく文字起こしされており、話し手が変わったり文が区切れたりすると改行が入っているのも読みやすいです。


なお、AIメーカーの文字起こし機能は1日1回つか使えません。


それ以上に使う場合はこのページからクレジットのチャージを行う必要があります。なお、料金は音声ファイルが1分あたり0.1ドル(約12円)で、画像は1ファイルあたり0.1ドルです。「1ドル」のボタンを押してから「購入」をクリック。


クレジットカードで購入すると……


こんな感じでチャージされました。


いろいろなムービーで試してみたところ、「5分で分かる「西郷どん』」や……

5分で分かる「西郷どん」第1回『薩摩のやっせんぼ』 - YouTube


「5分でわかる仮面ライダービルド」は「この動画はダウンロードできないため、文字おこしできません」ということで非対応でした。

5分でわかる仮面ライダービルド[公式] - YouTube


「5分で分かるアニメ『ヴァイオレット・エヴァーガーデン』」は対応していたので、文字起こししてみます。

5分で分かるアニメ『ヴァイオレット・エヴァーガーデン』第1回 - YouTube


結果はこんな感じ。


「共に行動し戦闘の毎日を行っていた」が「銭湯」になっていたり、一部のセリフが抜けていたりするので、音声を聞きながら文章を確認する作業は必要ですが、一から文字を文字起こしする作業をかなり軽くしてくれる精度と言えます。


また、画像からの文字起こしも可能。太宰治の「美少女」はこんな感じで、くっきりとしたスクショの文字起こしは……


かなり正しく行えます。


ただし、本の見開き写真だったり、フォントに特徴があったりすると……


ガクンと精度は落ちる模様。


一方、音声ファイルも読み込めるということで、ワイドFM対応ラジオ「Hint BLE Radio」完成発表会のMP3ファイルを読み込んでみたところ……


「日本語として明らかにおかしいのでは?」という仕上がりでした。


アップロードしたファイルの文字起こし結果は「文字起こし一覧」として表示され、テキストのコピーや、CSV、Excel、PDFファイルのダウンロードやプリントアウトが可能でした。確認のためテキストをコピーしてみたところ……


こんな感じで、「そんなことちっとも言ってない……」という内容が文字起こしされていました。5分・4700KBのMP3ファイルだったのですが、話している内容量も全く足りず。元の音声が早口だったためか、うまく文字起こしができないこともあるようです。

この記事のタイトルとURLをコピーする

・関連記事
無料で使える音声の文字起こしに便利な機能を搭載したツール「テープ起こしプレーヤー」 - GIGAZINE

音声書き起こし支援サービス「ToScribe」が新規ユーザ登録開始 - GIGAZINE

文章を読むだけでサクサク入力ができる「ドラゴンスピーチ」を使ってみた - GIGAZINE

画像内の文字や数式をコピペ可能なテキスト形式に変換可能な「Mosha」 - GIGAZINE

無料で画像・動画・保護されたPDFなどからテキスト文字列をOCRでコピーできるFirefoxアドオン「Copyfish」 - GIGAZINE

in レビュー,   ネットサービス,   動画, Posted by darkhorse_log

You can read the machine translated English article here.