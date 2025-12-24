PDFファイルを修正するのに「黒塗り」では情報漏えいのリスクがある
PDFの仕様普及と技術コミュニティの支援を目的とする非営利団体のPDF Associationが、「High-Security PDF Redacti」(高セキュリティのPDF修正方法)をレクチャーしています。これはPDFの一部情報を黒塗りして見えないようにしようとする行為が全く機能していない事例に対する教訓でもあります。
High-Security PDF Redacti
(PDFファイル)https://pdfa.org/wp-content/uploads/2020/06/High-Security-PDF-Redactions-v4a_2.pdf
PDFの情報が漏えいしないように修正する際、テキストを黒塗りすることがしばしばあります。これは特定の情報を削除したり、見えないようにしたりするための行為で、法律関連や機密文書などで広く使われてきました。
しかし、光学文字認識(OCR)やPDFの普及により、単に文字を黒塗りするだけでは情報が漏えいしてしまうリスクがあると、PDF Associationは指摘しています。
例えば、以下のPDFファイルはFacebookのデータアクセス慣行に関する訴訟で法廷に提出された裁判資料です。この種の資料では、一部の情報を隠すために以下のように一部のテキストが黒塗りされます。
しかし、この黒塗り部分を選択すると元のテキストをコピーできてしまいました。このように、テキストを消したり黒塗りしたり非表示にしたりしても、PDF内部には情報が残ってしまうことがあります。PDF Associationは「多くの古いあるいは単純なツールでは、隠したはずのテキストを削除しきることができません」と指摘しました。
そこで、PDF AssociationはPDFファイルのテキストを正しく削除する方法として、「PDFを作り直すこと」を挙げています。
テキストを正しく削除する方法は以下の通り。
1：PDFをレンダリング(PDFをただのピクセル情報に変換することで、内部に隠されていた情報を削除)
2：テキストの削除したい部分を黒塗り
3：PDFを1ページずつビットマップ画像としてレンダリング(解像度は300dpi以上推奨)
4：レンダリングした画像から新しいPDFを出力
5：OCRでテキストを認識し、黒塗りした場所が選択したり検索したりできないかを検証
なお、PDFの情報を正しく削除するために使える既存のソフトウェアとして、PDF Associationは以下を挙げました。
・Ghostscript
・MuPDF
Posted by logu_ii
