2023年12月06日 08時00分セキュリティ

GoogleがGmailのスパムフィルターをアップグレードして「人間にしか判読できないスパム」を自動検出可能に

無差別かつ大量に送信されるスパムメールは単に製品やサービスのプロモーションに用いられるだけでなく、時には悪質なマルウェアを配布したり個人情報を抜き取ったりするウェブサイトへの誘導にも使われます。新たにGoogleが、多くの人にとって大きな悩みの種となっているスパムメールを検出するフィルターをアップグレードし、大幅に検出能力を向上させることに成功したと報告しました。

Google Online Security Blog: Improving Text Classification Resilience and Efficiency with RETVec
https://security.googleblog.com/2023/11/improving-text-classification.html

Gmail’s AI-powered spam detection is its biggest security upgrade in years | Ars Technica
https://arstechnica.com/gadgets/2023/12/gmails-ai-powered-spam-detection-is-its-biggest-security-upgrade-in-years/

Gmail's spam detection has received its 'largest defense upgrades'
https://9to5google.com/2023/12/04/gmail-spam-detection-retvec/

GoogleはGmailやYouTube、Google Playといったサービスにおいて、フィッシング攻撃や有害なコメント、詐欺などのコンテンツを識別するために、コンテンツ中の文章を読み取るテキスト分類モデルを使用しています。

これに対して悪意のある攻撃者は、特殊な文字や絵文字、意図的なタイプミスなどを織り交ぜることで「人間には通常の文章に見えるもののコンピューターには判読できない文章」を作り、スパムフィルターの検出を回避しているとのこと。

こうした「敵対的テキスト操作」と呼ばれる方法で作られたメッセージの一例が以下。一見すると「Congratulations! A balance of $1,000 is available for your jackpot account(おめでとうございます！ジャックポット口座に1000ドルの残高があります)」と記されているように見えますが、実はアルファベットの「O(オー)」の代わりに数字の「0(ゼロ)」が混ぜられていたり、人間の目にはアルファベットに見える数学記号を使ったりすることでコンピューターによるスパム判定を避けています。

Googleは2023年11月29日のセキュリティブログで、スパムメールを検出するテキスト分類モデルをより堅固かつ効率的にするため、「Resilient ＆ Efficient Text Vectorizer(RETVec)」という新たな多言語テキストベクタライザーを開発したと発表しました。

RETVecはそれぞれの文字をデジタル記号として認識するのではなく、機械学習によって人間の視覚と同様に視覚的な類似性で識別しているため、敵対的テキスト操作に対して有効です。また、20万パラメーター以下の非常に軽量な単語埋め込みモデルを搭載しているため計算コストが大幅に削減され、レイテンシも大幅に短縮できるほか、ローカルのデバイスでも実行可能になっているとのことです。

Googleは過去1年間にわたりRETVecの有用性を徹底的にテストし、セキュリティや不正使用防止アプリケーションにおいて非常に効果的であることを確認したとのこと。特にGmailの迷惑メール分類ツールのテキストベクタライザーを従来のモデルからRETVecに置き換えたことで、スパム検出率が38％向上し、誤検知率は19.4％減少したと報告しています。Googleは、「さらに、RETVecを使用することでモデルのTensor processing unit(TPU)使用量が83％削減され、RETVecの展開は近年で最大のセキュリティアップグレードのひとつになりました」と述べてGmailのスパム検出精度向上をアピールしています。

なお、GoogleはRETVecのソースコードを以下のリンク先で公開しています。

GitHub - google-research/retvec: RETVec is an efficient, multilingual, and adversarially-robust text vectorizer.
https://github.com/google-research/retvec