PDFファイルを修正するのに「黒塗り」では情報漏えいのリスクがある

PDFの仕様普及と技術コミュニティの支援を目的とする非営利団体のPDF Associationが、「High-Security PDF Redacti」(高セキュリティのPDF修正方法)をレクチャーしています。これはPDFの一部情報を黒塗りして見えないようにしようとする行為が全く機能していない事例に対する教訓でもあります。
High-Security PDF Redacti
(PDFファイル)https://pdfa.org/wp-content/uploads/2020/06/High-Security-PDF-Redactions-v4a_2.pdf

PDFの情報が漏えいしないように修正する際、テキストを黒塗りすることがしばしばあります。これは特定の情報を削除したり、見えないようにしたりするための行為で、法律関連や機密文書などで広く使われてきました。
しかし、光学文字認識(OCR)やPDFの普及により、単に文字を黒塗りするだけでは情報が漏えいしてしまうリスクがあると、PDF Associationは指摘しています。
例えば、以下のPDFファイルはFacebookのデータアクセス慣行に関する訴訟で法廷に提出された裁判資料です。この種の資料では、一部の情報を隠すために以下のように一部のテキストが黒塗りされます。

しかし、この黒塗り部分を選択すると元のテキストをコピーできてしまいました。このように、テキストを消したり黒塗りしたり非表示にしたりしても、PDF内部には情報が残ってしまうことがあります。PDF Associationは「多くの古いあるいは単純なツールでは、隠したはずのテキストを削除しきることができません」と指摘しました。

そこで、PDF AssociationはPDFファイルのテキストを正しく削除する方法として、「PDFを作り直すこと」を挙げています。
テキストを正しく削除する方法は以下の通り。
1:PDFをレンダリング(PDFをただのピクセル情報に変換することで、内部に隠されていた情報を削除)
2:テキストの削除したい部分を黒塗り
3:PDFを1ページずつビットマップ画像としてレンダリング(解像度は300dpi以上推奨)
4:レンダリングした画像から新しいPDFを出力
5:OCRでテキストを認識し、黒塗りした場所が選択したり検索したりできないかを検証
なお、PDFの情報を正しく削除するために使える既存のソフトウェアとして、PDF Associationは以下を挙げました。
・Ghostscript
・MuPDF
・関連記事
無料&アカウント登録なし&ブラウザ上で完全に動作するプライバシー重視のPDFエディター「LocalPDF」 - GIGAZINE
「Gemini in Googleドライブ」のPDF要約・内容理解機能が日本語など20以上の言語にも対応 - GIGAZINE
Gemini 2.0 Flashは大量のPDFをAIで使用できるよう変換する作業でコスト・パフォーマンスの両面で劇的に優れている - GIGAZINE
無料&ブラウザ上でPDF・JPEG・PNG・GIFファイルからOCRによるテキスト抽出ができる「OCR PDFs and images directly in your browser」 - GIGAZINE
論文PDFファイルの可読性を劇的に向上させるGoogle公式Chrome拡張機能「Google Scholar PDF Reader」レビュー - GIGAZINE
Adobeが生成AIでPDFファイルの要約・内容に関する質問に回答・ナビゲーション・テキスト出力が可能なAdobe Acrobatの新機能を発表 - GIGAZINE
・関連コンテンツ
in セキュリティ, Posted by logu_ii
You can read the machine translated English article There is a risk of information leakage w….







