2024年02月28日 11時28分 ネットサービス

TumblrやWordPressがユーザーデータをAIトレーニングに提供する契約を結ぼうとしていたことが判明



SNSのTumblrとWordPressを保有するAutomatticが、AI企業であるOpenAIやMidjourneyと、AIのトレーニングのためにユーザーデータを提供する旨の契約を結ぼうとしていたことが明らかになりました。データがすでに提供済みかまだ提供されていないかは不明ですが、社内からは、契約には含まれないはずの個人的なデータまで提供するための準備が進められていたとの指摘があるということを、内部文書を入手したニュースサイト・404Mediaが報じています。



Tumblr and WordPress to Sell Users’ Data to Train AI Tools

https://www.404media.co/tumblr-and-wordpress-to-sell-users-data-to-train-ai-tools/







Tumblr’s owner is striking deals with OpenAI and Midjourney for training data, says report - The Verge

https://www.theverge.com/2024/2/27/24084884/tumblr-midjourney-openai-training-data-deal-report



Tumblr and WordPress posts will reportedly be used for OpenAI and Midjourney training

https://www.engadget.com/tumblr-and-wordpress-posts-will-reportedly-be-used-for-openai-and-midjourney-training-204425798.html



404Mediaによると、AutomatticとOpenAI・Midjourneyとの契約は締結間近で、現地時間2024年2月28日からTumblrとWordPressにおいて、ユーザーがAI企業を含む第三者とのデータ共有をオプトアウトできる新設定が導入される予定だとのこと。





AI企業に提供するデータは、専用のデータ収集クエリで集められたことが、Tumblrのプロダクトマネージャーであるサイル・ゲージ氏の内部投稿で明らかになっています。



ゲージ氏の情報によれば、収集対象に含めるべきではなかった投稿IDのリスト作成をエンジニアが行っているほか、CSAMやその他のコミュニティガイドライン違反のフラグが立てられたパスワード付き投稿・DM・メディアファイルは含まれていないとのことですが、2014年から2023年の以下の投稿はすべて含まれているとみられます。



・公開ブログへの非公開の投稿

・削除または停止されたブログへの投稿

・回答が得られるまで非公開のはずの、未回答の質問

・質問者のみ閲覧可能なプライベートな回答

・「成人向け」「NSFW」などのフラグが立てられた投稿

・Automatticが共有する権利を持たない、過去のAppleによるブログなどのプレミアムパートナーブログ



404Mediaがこの件についてAutomatticに問い合わせを行ったところ、Automatticは「ユーザー選択の保護」と題した声明を公開したとのこと。



Protecting User Choice – Automattic

https://automattic.com/2024/02/27/protecting-user-choice/





声明においてAutomatticは「デフォルトで主要なAIプラットフォームクローラーをブロックしており、新たなクローラーがリリースされるとリストを更新」する旨を明らかにし、外部のクローラーによるデータ収集は認めていないことを示しています。



一方で、「Automatticのコミュニティが関心を持っているもの(アトリビューション、オプトアウト、コントロール)と特定のAI企業のプロジェクトが一致する場合、直接協力しています」と言及し、AI企業を完全に排除しているわけではないことも明らかにしました。



今回の件で集められたデータがすでにAI企業に送られたのか、それともまだ送られていないのかは不明です。



なお、Tumblr上では1週間ほど前に「TumblrのスタッフがMidjourneyにアートデータを販売したというのはどういうことですか?」という質問があり、元Tumblr従業員からの伝聞ながら「数カ月前から、AutomatticとMidjourneyとの間で契約の話が進められている」という情報が投稿されていました。



TumblrのPress any key to start: What is this about the tumblr staff wanting to sell art data to midjourney?

https://www.tumblr.com/jv/742956751128805376/what-is-this-about-the-tumblr-staff-wanting-to



Automatticは2019年、TumblrをVerizonから買収しました。



ブログサービスのTumblrがWordPressの親会社に買収される - GIGAZINE





しかし、多額の投資にもかかわらず復興策の成果はなく、2023年に運営チームが大幅に縮小されています。



Tumblr復活のために150億円以上が費やされたものの最盛期には及ばず運営チームの大幅縮小が決定 - GIGAZINE