ソフトウェア

Stable Diffusionにも使われるデータセット「LAION-5B」に児童性的虐待コンテンツが見つかり開発元がリンクを削除した「Re-LAION-5B」をリリース


Stable DiffusionやMidjourneyなど著名な画像生成AIにも使われたデータセット「LAION-5B」に児童性的虐待コンテンツ(CSAM)が見つかった問題で、LAION-5Bの開発元であるLAIONがデータセットからCSAMを削除した「Re-LAION-5B」を新たに発表しました。

Releasing Re-LAION 5B: transparent iteration on LAION-5B with additional safety fixes | LAION
https://laion.ai/blog/relaion-5b/

Nonprofit scrubs illegal content from controversial AI training dataset | Ars Technica
https://arstechnica.com/tech-policy/2024/08/nonprofit-scrubs-illegal-content-from-controversial-ai-training-dataset/

2023年12月、インターネットの安全性を研究するスタンフォードインターネット監視団により、LAION-5BにCSAMが含まれていることが指摘されました。報告では、インターネットから収集された58億の画像リンクのうち、「CSAM」または「CSAMの疑いあり」と判断されたリンクが1008個発見されており、こうしたデータセットの存在が、一部の画像生成AIが児童を描写したディープフェイクを簡単に作成できる一因となっていることが伝えられていました。

画像生成AI「Stable Diffusion」などに使われた50億枚超の画像セット「LAION-5B」に1008枚の児童ポルノ画像が入っていることが判明し削除へ - GIGAZINE


報告を受けてLAIONはLAION-5Bを直ちに削除し、スタンフォードインターネット監視団やカナダとイギリスの虐待防止団体と協力して問題のあるリンクの削除に取り組みました。8カ月にわたる処理の結果、LAIONは報告された1008個のリンクを含む合計2236個のCSAMへのリンクをデータセットから削除し、これらのリンクを排除した「クリーンなデータセット」としてRe-LAION-5Bを発表しました。

リンクの削除に加え、LAIONは「新しい安全基準」を制定したとも発表しました。LAIONによると、以前は違法コンテンツがLAIONのフィルターをすり抜けることがあったそうですが、Re-LAION-5Bはこのフィルタリングが強化され、疑わしいリンクの大部分が除外されたとのことです。


LAIONは、「LAION-5Bは2022年9月までのクロールデータに基づいて設計されており、Re-LAION-5BにはLAION-5Bにすでに含まれているリンク以外に新しいコンテンツは存在しません。そのため、データセットに新たな疑わしい未チェックのリンクが紛れ込むことはありません。Re-LAION-5Bは協力機関によって確認されたすべてのCSAMリンクと照合済みです。したがって、研究者がより安全に使用することができます」と述べました。

この記事のタイトルとURLをコピーする

・関連記事
画像生成AIのStable Diffusionなどに使われるデータセット「LAION-5B」に同意のない子どもの写真が含まれており身元まで特定可能 - GIGAZINE

人間のアーティストがStability AIやMidjourneyなどの生成AI企業を相手にした著作権侵害訴訟を進めることを裁判所が認める - GIGAZINE

きちんとチェックすると「781年」かかるAI用データセット「LAION-5B」の課題がよくわかる「Models All The Way Down」 - GIGAZINE

AI生成の児童ポルノが爆増しており児童搾取に関する報告システムが機能不全に陥る恐れがあるとインターネット監視団が警告 - GIGAZINE

in ソフトウェア, Posted by log1p_kr

You can read the machine translated English article here.