「AIナレーター」が動物ドキュメンタリー番組っぽく開発者本人の生態をリアルタイムで解説するデモ動画が話題に
ソフトウェア開発者のチャーリー・ホルツ氏が、「有名ナレーターであるデイビッド・アッテンボロー氏の声で自分自身の生態に関するナレーション音声をリアルタイムで生成するシステム」を発表しました。実際に、アッテンボロー氏の声で動物番組風のナレーションが生成されるデモ動画も公開され、話題となっています。
David Attenborough is now narrating my life
— Charlie Holtz (@charliebholtz) November 15, 2023
Here's a GPT-4-vision + @elevenlabsio python script so you can star in your own Planet Earth: pic.twitter.com/desTwTM7RS
Unauthorized “David Attenborough” AI clone narrates developer’s life, goes viral | Ars Technica
https://arstechnica.com/information-technology/2023/11/unauthorized-david-attenborough-ai-clone-narrates-developers-life-goes-viral/
ホルツ氏が作成した「アッテンボロー氏の声で動物番組風のナレーション音声をリアルタイムで生成するシステム」は、画像からテキストを生成するOpenAIのGPT-4 Vision(GPT-4V)と、音声サンプルから「AIのクローン音声」を生成するElevenLabsの技術を組み合わせたものです。
GPT-4Vでアッテンボロー氏の動物番組っぽい説明や口調を再現するため、ホルツ氏は特別なプロンプトを持つAPIを作成。ウェブカメラで5秒ごとに撮影した画像を、APIを介してGPT-4Vにフィードすることで動物番組風のナレーションを生成し、そのテキストをアッテンボロー氏の音声サンプルでトレーニングしたElevenLabsのAI音声プロファイルで読み上げさせているとのこと。
ホルツ氏は実際にこのシステムを利用し、「自分自身の生態」をアッテンボロー氏の声でナレーションさせる動画をX(旧Twitter)に投稿しています。
システムのセッティングを行うホルツ氏。ウェブカメラが5秒ごとにホルツ氏の写真を撮影し、その画像を基にナレーションが生成される仕組みになっています。
システムが作動すると、「銀色の丸眼鏡とカールして乱れた長髪が特徴的な、ホモ・サピエンスの驚くべき標本がここにあります」というナレーションが流れ始めました。
さらに、「彼は青い布地のようなものを身につけていますが、これは求愛行動の一種としか思えません」と続き、とんでもないことを言われたホルツ氏も思わず笑っています。
ナレーションはカフェとおぼしき背景にも言及し、「背景は保護された生息地を示唆しており、おそらく共同の餌場か水場でしょう」と、意外にも鋭い指摘を行いました。
ホルツ氏が、水色のカップを見せつけるようにドリンクを飲みます。
すると、「ああ、洗練されたホモ・サピエンスが自然環境の中で、水分補給という重要な儀式に従事しているのを私たちは観察しています。このオスの個体は、おそらく生命維持に必要なH2Oで満たされた小さな円筒形の容器を選び、それを巧みに開口部に向けて傾けています。なんという優雅さ、そして身のこなしでしょう」と、まるで生命の驚異を伝える動物番組のようにホルツ氏がドリンクを飲んだことを説明しました。
ホルツ氏は、今回のシステムを構築するために作ったコードをGitHubで公開しています。
GitHub - cbh123/narrator: David Attenborough narrates your life
https://github.com/cbh123/narrator
・関連記事
日本語・英語・中国語でたった3秒の音声から人の声を再現可能なMicrosoftの「VALL-E-X」を独自にトレーニングしたゼロショットモデルが公開中 - GIGAZINE
AIでクローン音声を生成する最新ツールが4chan民により「エマ・ワトソンの声で『わが闘争』を読み上げさせる」など悪用されまくる事態に - GIGAZINE
Metaが開発した音声生成AI「Voicebox」は「他人の声で文章を勝手に読ませる」ことが可能、危険過ぎるのでMetaは一般公開を避ける - GIGAZINE
AIによって作られた数十言語の音声によりニューヨーク市長が有権者に多言語話者だと思わせているという指摘 - GIGAZINE
AIで作成したクローン音声で誘拐をでっち上げて身代金を要求する事件が発生 - GIGAZINE
AIが架空の女性やセクシーな写真、ストーリーや音声まで作成する「ハイパーポルノ」 - GIGAZINE
YouTubeがAI生成・改変動画をはっきり明示する方針を発表、クリエイターに情報開示を義務づけ違反するとパートナープログラム停止も - GIGAZINE
Microsoftの社長がAIで最も懸念しているのは「ディープフェイク」だと発言 - GIGAZINE
声優に「録音した音声でAIに合成音声を生成させることを認める」契約を迫るケースが増加、声優や組合からは反対の声 - GIGAZINE
・関連コンテンツ