ソフトウェア

月間アクティブユーザー10億人超のメッセージアプリが行う自動リアルタイムフィルタリング

by JESHOOTS-com

中国で人気のメッセージアプリ「WeChat」は、メッセージのやり取りの中で送受信される画像に対して、リアルタイムで自動フィルタリングを行っていることが調査により明らかになっています。

(Can’t) Picture This 2: An Analysis of WeChat's Realtime Image Filtering in Chats - The Citizen Lab
https://citizenlab.ca/2019/07/cant-picture-this-2-an-analysis-of-wechats-realtime-image-filtering-in-chats/


中国が厳しいインターネット検閲を実施していることは有名な話。ネット掲示版への書き込みに実名登録を義務づけたり、Wikipediaへのアクセスを遮断したりと、厳しい検閲が行われており、中国でサービスを提供する企業は中国政府が求めるレベルの検閲が可能なサービスを用意する必要があり、中国最大のインターネット企業のひとつであるTencentも例外ではありません。

そんな中、トロント大学の学際研究所であるCitizen Labが、Tencentが提供する月間アクティブユーザー数10億人超の中国で最も人気のあるメッセージアプリ「WeChat」が、ユーザーのやり取りする画像に対して自動でリアルタイムフィルタリングを行っていることを明かしています。

by Sinchen.Lin

Citizen Labの調査結果によると、WeChatは自動で実行されるリアルタイムフィルタリング機能を実装しており、この機能により「画像の中に写り込んだテキスト」や「画像の視覚的な類似性」が、ブラックリストに登録されているものと似ていないかどうかチェックし、該当するものをブロックすることが可能です。

以下の画像は、WeChatでユーザーA(左)からユーザーB(右に)中国の風刺漫画家であるRebelPepperこと王立銘氏が描いた「709事件」の風刺画を送信した際のスクリーンショット。ユーザーAが送信した画像は、リアルタイムフィルタリングにブロックされ、ユーザーBの元へは届いていません。


WeChatの画像フィルタリング機能には、画像の中に含まれるテキストを光学文字認識(OCR)を用いて認識するという方法と、画像の視覚的な類似性を比較する方法の2つが用いられています。

OCRを用いて画像の中に含まれているテキスト部分を認識し、画像をブロックすべきか否かを判断する場合、愛国心溢れる「愛党愛国(党を愛して国を愛する)」というメッセージと、中国政府を批判するような「天滅中共(天が中国共産党を滅亡させる)」というメッセージが入った画像から、批判的なメッセージを認識してブロックするそうです。


さらに、WeChatが制作した画像のブラックリストに登録されているものと視覚的に類似しているという理由から、以下の画像もリアルタイムフィルタリング機能によりブロックされてしまったそうです。


加えて、WeChatはユーザーが送信する画像のハッシュ関数の一種である「MD5」をインデックス化することで、リアルタイムフィルタリング機能の維持を容易にしていることも明らかになっています。画像をインデックスするにはコンピューティングコストが高くなりすぎてしまい、リアルタイムでの処理が難しくなるため、比較的容易に計算可能なハッシュをインデックス化しているとCitizen Labは指摘しています。

チャット上でユーザーが送信した画像のMD5がインデックス上に存在しない場合、その画像はフィルタリングされずにそのまま送信されるものの、自動分析のためにキューに入れられることとなります。そこで機密性の高い画像と判断された場合、その画像のMD5がインデックスに追加され、次回以降同じ画像が送信された場合にブロックできるようになるとのこと。

また、WeChatの場合、「グループチャット」「1対1のチャット」「モーメント」では異なるフィルタリング用のインデックスが用いられていることも明らかになっています。これは、グループチャットで送信して検閲の対象となった画像でも、1対1のチャットやモーメントではフィルタリングされない可能性があることを示しています。ただし、各インデックスに登録されている画像と視覚的に類似しているものは、フィルタリングの対象となるように設定されているため、それぞれのインデックスがあらゆる画像のフィルタリングに適応できるよう設計されています。

以下の画像は、検閲の対象となるであろう111枚の画像のうち「グループチャット」「1対1のチャット」「モーメント」のそれぞれでブロックされたものの数を図示したもの。モーメントのみでブロックされた画像の枚数は2枚(赤色)、グループチャットでだけブロックされたは2枚(緑色)、モーメントおよびグループチャットでブロックされた画像は71枚(橙色)、モーメント・グループチャット・1対1のチャットのすべてでブロックされた画像は36枚(紫色)となっており、1対1のチャットのフィルタリングが最も緩いことがわかります。


同じ画像であっても、画像ファイルの形式などによってWeChatクライアントが画像を再エンコードするケースがある模様。画像のハッシュ値はファイル形式や「WeChatクライアントが再エンコードしたか」などによって異なるものの、インデックスに保存されているブラックリストに登録された画像と視覚的に似ていると判断されれば、それぞれフィルタリングの対象となります。なお、内容が同じでも解像度が異なればハッシュ値は異なってくるのですが、WeChatクライアントが再エンコードした場合は解像度が異なっても同じ内容の画像ファイルならば同じハッシュ値となる模様。


加えて、WeChatが自動で作成しているフィルタリング対象となる画像のインデックスは、主に中国政府に批判的なコンテンツを中心にブロックされているとのこと。220枚のフィルタリングされた画像をカテゴリ分けすると以下の通りになり、圧倒的に政府関連のコンテンツがブロックされていることがわかります。


なお、WeChatがどういった判断でブロックする画像を選別しているかは不明ですが、これまでの調査で機密性の高い出来事に関連する公式のポリシーやイデオロギーを参照した中立的なキーワード検閲を実行していることが明らかになっています。そのため、必ずしも政府の指導者や政党幹部に対して批判的な画像だけがブロックされているというわけではないことも明らかになっています。

WeChatが特にブロックの対象としていた出来事は、以下の通り。かっこ内の数字がブロックされた関連画像の枚数です。

文化大革命(4)
六四天安門事件(1)
ファン・ビンビン脱税スキャンダル(2)
2018年に重慶で起きたバス転落事故(2)
2018年アメリカ中間選挙(3)
中国最高裁の裁判記録紛失スキャンダル(24)
HuaweiのCFOが逮捕された出来事(10)
中米貿易戦争(8)
中国のゲノム編集により誕生した双子の赤子に関するスキャンダル(2)
四川省の小学校で腐った食材が提供された問題(2)
2019年に発生した四川省の山火事(2)

なお、Citizen Labは「中国のソーシャルメディア上で行われる検閲は、ニュースサイクルに反応することが多く、これは中国企業がスキャンダルなどに関する情報統制を厳しく行う傾向があるためである」としています。

そのほか、違法な商品の販売を促すような画像、非政治的なミーム、ヌードを含むようなコンテンツ、中国政府に対する反抗的な内容を含むコンテンツなども多くブロックされた模様。例えば、中国では銃器の所有または販売が許可されていないということもあり、銃器の販売を促すようなチラシはブロックされたそうです。


そのほかにブロックされた画像の種類としては、テロや宗教的過激主義関連のものが挙げられています。

しかし、なぜフィルタリング対象としてインデックスに登録されているのか不明な画像もあったそうです。例えば、有名な霊長類学者のジェーン・グドール氏がチンパンジーの赤ちゃんと写った写真は、なぜかWeChatではブロックされてしまう模様。


なお、Citizen Labは「WeChatのデータベースには一般ユーザーと研究者の両方を含むユーザーがプラットフォームを介して送信した画像が含まれていることがわかりました。研究者としては、これはフィルタリングされる画像について測定することが、将来の測定結果を変える可能性があるという課題につながりました。自動フィルタリングシステムであっても、過去の測定値がプラットフォーム上のフィルタリングの将来的な動作を変える可能性があることに注意してください」と記しています。

この記事のタイトルとURLをコピーする

・関連記事
データ集中の究極形態「WeChat」アプリが抱える大問題とは? - GIGAZINE

中国当局が中国版LINE「WeChat」のメッセージを監視できることを認める、開発元は否定 - GIGAZINE

中国がついに全言語のWikipediaへのアクセスを遮断へ - GIGAZINE

中国政府がネット掲示版への書き込みに実名登録を義務づけへ - GIGAZINE

中国のネット検閲システム「グレートファイアウォール」の仕組み - GIGAZINE

in モバイル,   ソフトウェア, Posted by logu_ii

You can read the machine translated English article here.