児童ポルノを検出する「PhotoDNA」はMicrosoftの主張に反してハッシュから画像を再構成できる
Google、Facebook、Twitterなど、数多くの企業が違法コンテンツをプラットフォームから削除するためにMicrosoftが開発した画像識別技術「PhotoDNA」を利用しています。PhotoDNAは違法画像にデジタル署名を付与してデータベース化し、インターネット上の画像をこのデータベースと照合するという形で利用します。Microsoftはハッシュ化された違法画像のデータから画像を再構成することはできないと主張していますが、研究者が新たに、PhotoDNAから画像を再構成することに成功したと報告しました。
Inverting PhotoDNA
https://www.anishathalye.com/2021/12/20/inverting-photodna/
Microsoft Researchとダートマス大学でデジタル画像分析の研究を行うハニー・ファリド教授は、2009年に児童ポルノを中心とした違法コンテンツを検出するPhotoDNAを開発しました。PhotoDNAは、画像に「一意のデジタル署名」を付与し、それがデータベースに含まれる「違法画像の署名」と一致するかどうかを調べるものです。
MicrosoftはPhotoDNAについてこれまで、「PhotoDNAのハッシュは可逆的ではないため、画像の再作成には利用できません」と主張してきました。しかし、マサチューセッツ工科大学の博士課程学生であるAnish Athalye氏は、機械学習を利用して、PhotoDNAのハッシュを反転できる「リボソーム」の開発に成功しています。
以下がリボソームがPhotoDNAのハッシュから作成した画像。左列が144バイトあるPhotoDNAハッシュの一部、中央列はリボソームを使ってPhotoDNAハッシュから再構築した画像、右列はハッシュの元となった画像です。ハッシュから再構築した画像はぼかしのかかったような状態ではあるものの、かなりのレベルで元画像まで近づけています。
Athalye氏によると、PhotoDNAアルゴリズムの詳細は非公開であるものの、アルゴリズムは公開情報に基づいてリバースエンジニアリングされているとのこと。また、過去にはPhotoDNAのハッシュ計算に使われたコンパイル済みのライブラリも流出しています。
一方で、オープンソースではないためにPhotoDNAのハッシュについての研究はあまり行われていません。数少ない研究の1つには、2019年にMicrosoftが共同研究によってPhotoDNAのプライバシー保護機能について調査し、「PhotoDNAは機械学習ベースの分類攻撃に耐性がある」と結論付けたものがあります。一方で、2021年には「PhotoDNAのPerceptual Hash関数は、新しい攻撃に耐えうるほど十分に堅牢ではない可能性が高い」という調査結果も示されています。リボソームはPhotoDNAハッシュ関数に対する反転攻撃の1つであり、Microsoftの「PhotoDNAハッシュは画像の再作成に使用できない」という主張を検証するものであるとAthalye氏は述べました。
リボソームはさまざまなデータセットでトレーニングされており、「CelebA」「COCO」「Redditからスクレイピングした画像10万枚」「CelebA・COCO・Redditを合わせたもの」という4つのデータセットからハッシュを再構成すると以下のような感じ。モデルによって再構成された画像の完成度に差が出ており、最も大規模で多様なデータセットを使った4列目が、最も優れたものであることがわかります。
ただし、上記の画像は結果の一部であって、全ての画像がうまく再構成されるわけではないとのこと。中には以下の画像のようにうまく再構成できないものもありました。
上記の結果からAthalye氏は、Microsoftの主張に反して、PhotoDNAハッシュを使用して元の画像のサムネイルを複製することは可能だと示しています。なお、リボソームのコードやトレーニング済みモデルは以下からダウンロード可能です。
GitHub - anishathalye/ribosome: Synthesize photos from PhotoDNA using machine learning ????
https://github.com/anishathalye/ribosome
・関連記事
「違法画像の検出システムは簡単にだませる」ことを示した実例はこんな感じ - GIGAZINE
Verizonはいかにして自社クラウド内の児童ポルノを発見しているのか? - GIGAZINE
MicrosoftのOneDriveに児童ポルノを保存していたら通報されて逮捕 - GIGAZINE
Google・Facebook・Microsoftなどが協力してインターネットから児童ポルノを根絶するための5つの計画を発表 - GIGAZINE
Appleが「児童性的虐待資料検出はプライバシーを損なうものではない」とFAQを発表 - GIGAZINE
・関連コンテンツ