2024年02月27日 07時00分ソフトウェア

Microsoftが生成AIの抜け穴テストツール「PyRIT」を発表

Microsoftが2024年2月22日に、生成AIのリスクを特定する自動化ツール「PyRIT(Python Risk Identification Toolkit for Generative AI：生成AI用リスク特定ツール)」のリリースを発表しました。

GitHub - Azure/PyRIT: The Python Risk Identification Tool for generative AI (PyRIT) is an open access automation framework to empower security professionals and machine learning engineers to proactively find risks in their generative AI systems.
https://github.com/Azure/PyRIT

Announcing Microsoft’s open automation framework to red team generative AI Systems | Microsoft Security Blog
https://www.microsoft.com/en-us/security/blog/2024/02/22/announcing-microsofts-open-automation-framework-to-red-team-generative-ai-systems/

Microsoft releases automated PyRIT red teaming tool for finding AI model risks - SiliconANGLE
https://siliconangle.com/2024/02/23/microsoft-releases-automated-pyrit-red-teaming-tool-finding-ai-model-risks/

生成AIには、誤った情報を出力する「幻覚」という問題や不適切な結果を出力するといった課題があり、その悪影響を抑えるためAI企業は機能に制限をかけて対応していますが、ユーザーはあの手この手を使って抜け道を発見してしまうため、いたちごっこになっています。

Microsoftの生成AIであるCopilotも例外ではないため、MicrosoftはAIに特化したレッドチームである「AI Red Team」を社内に設立して責任あるAIの開発に取り組んできました。

今回Microsoftが公開したPyRITは、AI Red TeamがAI研究者やエンジニア向けに開発したライブラリで、最大の特徴はAIシステムの「レッドチーミング」の自動化により、人間の専門家がAIリスクを特定するのにかかる時間が大幅に短縮される点です。

従来のテストでは、AIがマルウェアを出力してしまったり、学習データセットの機密情報をそのまま吐き出したりするのを防ぐために、人間のレッドチームが手動で敵対的なプロンプトを生成しなければなりませんでした。

しかも、敵対的なプロンプトはテキストや画像といったAIが出力する形式ごとに、そしてAIとユーザーがやりとりを行うAPIごとに生成する必要があるため、こうした作業は面倒で時間もかかるタスクでした。

一方、PyRITを使うとAIへの敵対的な入力の種類を指定するだけで、その基準を満たす数千のプロンプトを自動生成することが可能です。例えば、MicrosoftがCopilotで行った演習では、危害カテゴリを選んで数千の悪意あるプロンプトを生成し、それに対するCopilotの出力をすべて評価するのにかかる時間が数週間から数時間に短縮されたとのこと。

敵対的プロンプトの生成以外にも、PyRITはAIモデルの反応を見て、あるプロンプトに対して有害な出力を行ったかどうかを自動的に判断したり、AIの応答を分析してプロンプトを調整したりすることができるため、テスト全体の効率化につながります。

Microsoftは、「PyRITは手動のレッドチーミングに代わるものではなく、レッドチームが持つ専門知識を強化し、面倒なタスクを自動化することで、セキュリティ専門家が潜在的なリスクをより鋭く調査できるようにするものです」と述べました。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2024年02月27日 07時00分00秒 in ソフトウェア, Posted by log1l_ks

You can read the machine translated English article here.