2022年09月22日 17時00分ネットサービス

画像生成AIユーザーがAI学習用データセットから「自分の医療記録の写真」を発見してしまう

画像生成AIの「DALL・E2」などを使ったアート作品を手がけるアーティストが、AIの学習用データセットとして提供されている写真の中から、自分が病院で治療を受けている時に撮影された写真を見つけたと報告しました。このことから、一度インターネットに流出してしまったデータを消すことが極めて困難なことが改めて浮き彫りになっています。

Artist finds private medical record photos in popular AI training data set | Ars Technica
https://arstechnica.com/information-technology/2022/09/artist-finds-private-medical-record-photos-in-popular-ai-training-data-set/

AIアーティストのLapine氏は2022年9月17日に、Twitterで「私の顔がLAIONデータセットに含まれていました。それは、2013年に臨床記録として医師が撮影した写真です。医師は2018年に亡くなりましたが、写真がネット上のどこかに流出してデータセットの中に入ったのでしょう」と述べました。同氏のツイートには、医療記録としての使用を認める旨の同意書の写真が添付されています。

????My face is in the #LAION dataset. In 2013 a doctor photographed my face as part of clinical documentation. He died in 2018 and somehow that image ended up somewhere online and then ended up in the dataset- the image that I signed a consent form for my doctor- not for a dataset. pic.twitter.com/TrvjdZtyjD
— Lapine (@LapineDeLaTerre) September 16, 2022

問題のデータセットは、インターネットで公開されている画像50億点以上を収集して作成された「LAION-5B」というデータセットです。Lapine氏は、自分の作品がLAION-5Bに含まれているかどうかを確認できる「Have I Been Trained?」というサイトを使用中に、偶然自分の顔写真を見つけたとのこと。「Have I Been Trained?」がどのようなサービスなのかは、以下の記事で解説されています。

画像生成AIに自分の作品が勝手に使われたかどうかを検索できる「Have I Been Trained?」 - GIGAZINE

Lapine氏がIT系ニュースサイトのArs Technicaに話したところによると、同氏は肌や歯、骨など体のあらゆる部分に影響が及ぶ先天性角化不全症という遺伝性疾患を患っているとのこと。その治療の一環として、Lapine氏は顔の輪郭を再建する手術を受けましたが、その際に外科医が撮影した顔写真が医師の死後に何者かによって盗み出されてネット上に流出し、それがLAION-5Bに収集されたのではないかとLapine氏は考えています。

Ars Technicaが、Lapine氏から提供された写真と記録を元に照合したところ、確かに「LAION-5B」のデータセットにLapine氏の医療記録の写真が含まれていたことが確認されました。写真は同氏の本名と紐付けられていませんでしたが、写真の検索中に他の患者の医療記録と思われる写真も数千枚見つかっており、中には倫理的および法的な正当性が疑わしいものもありました。

Ars Technicaは、こうした写真がMidjourneyやStability AIが商業サービスとして提供している人気の画像生成サービスの一部になっている可能性があると指摘しています。

Lapine氏は自分の医療記録の写真が無許可で出回り、AIのトレーニングに使用されていることについて「写真が流出しただけでも十分ひどいことですが、今ではそれが製品の一部になってしまいました。これは、医療記録であろうとなかろうと、誰の写真でも起こり得ることです。こうした写真が将来的に悪用される可能性は非常に高いでしょう」と話しました。

Ars Technicaによると、LAIONはウェブ上にある画像のURLをまとめたデータセットであるため、LAIONは画像そのものを直接保有しているわけではないとのこと。そのため、Lapine氏がLAIONに対してデータセットから自分の画像を削除する方法について問い合わせしても、「インターネットから画像を削除する最良の方法は、画像をホストしているサイトにそれをやめるよう依頼することです。我々はこれらの画像を一切ホストしていません」と回答されてしまいました。

アメリカでは、インターネット上に掲載されているデータを収集してまとめるウェブスクレイピングは合法であるとの判決が2019年に出ているため、LAIONのようなサービスに直接画像の削除を求めることは難しいと言われています。LAIONはやむを得ない場合の措置として、使用して欲しくないURLのリストを作成して配布し、各AIのトレーナーにその画像をブラックリストに入れるよう依頼することを提案しました。

画像生成AIのようなテクノロジーの今後について、Ars Technicaは「AIを搭載したクリエイティブツールが必然的な技術的進歩であることは、日に日に明らかになってきています。しかし、社会には難しい問いがまだ残されています。10年前にインターネットに画像をアップロードした人や、違法に自分の画像がアップロードされた人が、自分のデータが未来のAIのトレーニングに使われることを黙って受け入れるよう期待するのは倫理的なのでしょうか？その答えが『ノー』だとしても、それは問題にはならないのでしょうか？」と、疑問を投げかけました。

この記事のタイトルとURLをコピーする