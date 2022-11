2022年11月16日 23時00分 ソフトウェア

自分の行動を毎日24時間録音してWhisperで文字起こしする「全自動口述日記」を1週間つけつづけたエンジニアの報告



AI研究団体のOpenAIが開発した「Whisper」は非常に高い精度で録音から文字起こしを行うAIモデルで、オープンソースで無料公開されています。エンジニアのロバー・ダム氏が自身のブログで、毎日スマートフォンに行動を逐一吹き込み、その録音をWhisperで文字起こしすることで「全自動口述日記」を残すことができるシステムを試した結果について報告しています。



I record myself on audio 24x7 and use an AI to process the information. Is this the future?

https://roberdam.com/en/wisper.html



ダム氏が全自動口述日記を思いついたのは、以前から「1TB超えのストレージを内蔵したスマートフォンが登場すれば、24時間365日録音し続けることが可能なのではないか」と考えていたことから始まっているそうです。さらに、2022年9月にOpenAIがWhisperの一般公開を発表したことで、全自動口述日記が現実的なアイデアになったとダム氏は述べています。



ダム氏は中国製のマイクと超小型のレコーダーを購入し、常に自分の行動を声に出して録音することにしました。その際、話したい内容の頭に「Robert」、終わりに「End Robert」とつけることで、話した内容をすべて記録できるようにしたそうです。そして、「Robert」コマンドで録音された内容をその日の終わりにすべてWhisperで処理し、テキストファイルに変換し、その内容を自動でまとめるようなシステムを開発したそうです。



Googleアシスタントを使って「OK Google」のウェイクワードで録音しなかった理由について、ダム氏は「『OK Google』のままだとインタラクティブに何かをできるのか、それともGoogle検索結果を返されるのかがよくわからないから」「『OK Google』から始まるコマンドは音声ファイルとしてGoogleに保存されるから」「Googleにコマンドを送信すると遅延が発生するため」と説明しています。



例えば、その日の体重を記録する場合は「Robert WEIGHT 62.8 end Robert」と話しかけます。





「Robert SLEEP 7 hours 14 minutes(睡眠時間は7時間14分) end Robert」





「Robert LUNCH two toasts with a fried egg(昼ご飯はトースト2枚にフライドエッグ) end Robert'」と話しかけると、食事内容を記録するだけでなく、外部APIを使って食べたもののカロリー計算も自動化しているそうです。





「Robert NOTE the podcast talks about Morgan Housel's book the psychology of money(ポッドキャストでモーガン・ハウセルの著書『サイコロジー・オブ・マネー 一生お金に困らない「富」のマインドセット』についての話をしていた) end Robert」と話しかけることで、運転しながら気になることや思いついたアイデアを書き留めることが可能。





そして一通り録音した内容をWhisperで文字起こしし、すべてをデータ化してまとめた上で、コントロールパネルで表示することができます。以下のように1週間の体重の変化や睡眠時間の変化、当日のカロリー摂取量、ガソリン代や買い物などで使った金額の合計、「Today's Notes(今日の気付き)」などがわかりやすくまとめられています。





さらにその日の時間ごとにつぶやいた話した内容を時系列順に示し、1日の行動をまとめた日記を全自動で作成する「マイジャーナル」機能も搭載。





ダム氏は「自分の発言がすべて録音されていれば、少しは被害妄想が減ります。私のテストでは、携帯電話やレコーダーによる録音が文字起こしされる精度は、デバイスとの距離によりますがだいたい50%といったところです」と述べています。また、単に話している内容だけではなく、「いつどこで誰とどのように」という5W1Hによる背景も必要になるため、録音と文字起こしだけでは残せる情報量に限界があったとのこと。



全自動口述日記システムを1週間試した上で、ダム氏は「些細な会話からその日行ったすべてのことを完全に追体験できるのは魔法のようなものです」「口から出たすべてのこと、すべてのやり取りを記録し、それを分析することで今まで不可能だった物の見え方ができます」という利点を挙げる一方で、自分以外の誰かの手に情報が渡ってしまう危険性を指摘。「ユートピアかディストピアかの違いは、誰がその情報にアクセスできるかです」と述べています。