2023年04月20日 13時00分ソフトウェア

対話型AIの学習に使われているGoogleのデータセット「C4」には4chanや白人至上主義者のサイトなど問題のあるコンテンツが大量に混入している

Metaが2023年2月に公開した大規模言語モデル「LLaMA」を始めとするAIのトレーニングには、Googleが作成した巨大データセット「Colossal Clean Crawled Corpus(C4)」が使用されています。C4は名前の通り「クリーン」なデータで構成されているはずですが、海外メディア・The Washington PostとAI研究者の分析により、このC4に有害なコンテンツが大量に紛れ込んでいることが発覚しました。

See the websites that make AI bots like ChatGPT sound so smart - Washington Post
https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/

OpenAIのChatGPTを皮切りに、爆発的な進歩により大きな注目を集めている対話型AIですが、OpenAIがAIの危険性を理由にGPT-4のトレーニングデータを非公開にすることを決定したように、いくつかの対話型AIの内部は透明性に乏しい「ブラックボックス」と化しています。

このブラックボックスについて究明するため、The Washington Postは非営利研究機関・アレン人工知能研究所と共同で、C4の分析を行いました。

The Washington Postが、インターネット分析企業であるSimilarwebのデータを使用してC4の情報源となったサイトを分類したところ、1500万件のサイトのうち約500万件は非表示となっており内容が不明でした。

そして残りの3分の2を調べたところ、サイトの内訳は以下のように「ビジネスと工業」が16％、「テクノロジー」が15％、「ニュースとメディア」が13％といった構成になっていることが分かりました。

最も多くのデータを提供していたのが「patents.google.com」で、これは世界中の特許のテキストを集積したGoogleの特許文献検索サービスです。2位以降には、無料のオンライン百科事典の「wikipedia.org」や、電子書籍やオーディオブックを収録したサブスクリプションサービスの「scribd.com」が続きました。また、190位には海賊版の電子書籍を取引するサイトとして悪名高い「b-ok.org」も入っていました。

25位にはクラウドファンディングサイトの「kickstarter.com」、2398位にはアーティスト支援プラットフォームの「patreon.com」もありました。インターネット上で活躍するアーティストやクリエイターの中には、自分が作ったコンテンツがAIによって学習されたりコピーされたりすることを快く思っていない人も多く、2023年1月には画像生成AIのStable DiffusionとMidjourneyに対する集団訴訟も起きています。

特にThe Washington Postが問題視しているのが、差別的なコンテンツなどの有害なデータによる汚染です。3番目に大きなデータのカテゴリである「ニュースとメディア」の中には、白人至上主義に関するニュースなどを扱うオルタナ右翼のメディアである「breitbart.com(159位)」や、反移民サイトの「vdare.com(993位)」などが含まれていました。

C4にはさらに、順位は低いもののトランスジェンダーの人などに対する嫌がらせで少なくとも3人を自殺に追い込んだサイト・Kiwi Farmsのドメインである「kiwifarms.net(37万8986位)」や、2ちゃんねる開設者のひろゆき(西村博之)氏に買収されたことやヘイトスピーチなど過激な投稿で有名な匿名掲示板の「4chan.org(433万9889位)」のデータも含まれていました。

C4は、非営利団体・Common Crawlが作成したAIトレーニングデータを「クリーン」にしたバージョンとしてGoogleが作成したもの。Googleが開発した自然言語処理AIのT5のトレーニングに用いられているほか、MetaのLLaMAがトレーニングに使用したデータセットにも15％使用されています。

今回、大規模言語モデルや対話型AIの開発に使われていることが判明した有害なコンテンツは、氷山の一角とされています。これについてThe Washington Postは、「チャットボットは誤った情報を自信満々で提供することが知られており、いつも引用元を提供するとは限りません。信頼できない学習データによって偏見やプロパガンダ、誤った情報を拡散してしまう可能性があり、ユーザーが元の情報源を突き止めることはできないのです」と指摘しました。

なお、The Washington PostのサイトではC4の解析結果を検索することが可能です。