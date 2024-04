2024年04月08日 12時35分 ソフトウェア

100万時間以上のYouTube動画をOpenAIがAIモデルのトレーニングに利用していたことが判明



OpenAIが、AIモデルのトレーニングに用いるために100万時間を超える分量のYouTube動画をダウンロードして利用していたことがThe NewYork Timesの指摘でわかりました。なお、YouTubeと同じ親会社AlphabetのもとにいるGoogleは、OpenAIの行為に気付いていましたが、自分たちも独自のAIモデルのトレーニングにYouTubeの動画を活用していたため、行動を起こさなかったとのことです。



The NewYork Timesの指摘によると、OpenAIは2021年時点でネット上にある「信頼できる英文テキスト」を使い果たし、次のAI開発にあたって新たなテキストが必要になったとのこと。





そのため、高精度な文字起こしを実現する「Whisper」を開発。



そして、Whisperを用いてYouTubeにある動画の文字起こしを行い、AI用のトレーニング素材を入手したそうです。



YouTubeの動画を用いることについて、OpenAIでも議論はあったものの、グレッグ・ブロックマン社長も個人的にデータ収集に協力し、結果として生まれたのがGPT-4だとのこと。



なお、報告によればGoogleの中にはOpenAIの行いに気付いていた人もいるようですが、トレーニング素材を必要としていたGoogleも同じくYouTubeの動画を素材として独自にAIモデルのトレーニングを行っていたため、何も行動を起こさなかったと指摘されています。



Googleは2023年7月、GoogleドキュメントやGoogleスプレッドシートなどのコンテンツもすべてトレーニングに利用できるようにするため、プライバシーポリシーを変更しています。



研究者からは、2026年までにトレーニングに使うデータが枯渇するとの指摘がありますが、実際には、すでに相当無理なことをしている状態にあるようです。



なお、The Vergeのメールインタビューに対して、OpenAI広報のリンゼイ・ヘルド氏は、グローバルな研究競争力のためにOpenAIがユニークなデータセットをキュレーションしていること、およびソースとして公開データおよびパートナーシップを結んだ非公開データを含む多数のものを使用していて、独自の合成データの生成も検討していることに言及したそうです。



一方、Google広報のマット・ブライアント氏は「robots.txtおよび利用規約で、YouTubeのコンテンツの無断スクレイピングやダウンロードは禁止しています」と述べました。



YouTubeのニール・モハンCEOも、YouTubeのデータをAIのトレーニングに用いるのはルール違反であることを明言しています。



