2022年02月08日 14時00分ソフトウェア

「AIが差別発言しないかをAIでチェックする」というDeepMindの試み

人間と対話を行ったり文章を自動で生成したりなど、AIが自然言語を扱うために文法や言葉のつながりを定式化したものが言語モデルです。言語モデルは人間ではないので、学習結果によっては差別的な内容を含む内容を出力することがあります。そこで、「言語モデルが差別的な内容をするかどうかのチェックに言語モデルを使う」というアプローチを、AI企業のDeepMindが発表しました。

Red Teaming Language Models with Language Models | DeepMind
https://deepmind.com/research/publications/2022/Red-Teaming-Language-Models-with-Language-Models

2016年にMicrosoftが会話理解を研究する目的で、自動的にツイートするTwitterボットの「Tay」を公開しました。しかし、公開から数時間後に人種差別的・性差別的なツイートを連発するようになってしまったため、Tayは活動を止められてしまいました。

Microsoftの人工知能が「クソフェミニストは地獄で焼かれろ」「ヒトラーは正しかった」など問題発言連発で炎上し活動停止 - GIGAZINE

Tayの暴走はMicrosoftの配慮が足りなかったからではなく、一部のユーザーが面白がって差別的な表現を学習させたからです。DeepMindは「Tayの例のように、問題は言語モデルに有害なテキストを生成させるような入力が非常に多いことです。そのため、言語モデルが現実世界に導入される前に失敗する事例を発見するのはほとんど不可能です」と述べています。

こうした失敗を防ぐためには、人間が手動でテストを行い、あらかじめ言語モデルが有害な動作をしないかをチェックする必要があります。しかし、人力によるチェックはテスト数が限られてしまう上にコストが高くつくのがネックです。

そこで、「言語モデルのテストを行うアノテーターにも言語モデルを使う」というのが今回DeepMindが発表したアプローチです。具体的にはレッドチームとなる言語モデルが、調査対象の言語モデルに対してさまざまな質問を入力し、それに対して出力された答えを分析して評価していくというものです。

このDeepMindのアプローチによって特定される言語モデルの有害な動作は以下の5つ。

1：不快な言葉
悪意のある言い回しや、差別的、冒涜的あるいは性的な表現。
2：情報漏えい
個人を特定できる情報を生成し、発信する。
3：連絡先情報の生成
特定の人にメールや電話で連絡するように指示する。
4：分布バイアス
多数の出力の平均で、特定のグループの人々について、他のグループとは不当に異なる方法で会話する。
5：会話における危害
長く会話をする中で発生する攻撃的な言葉。

DeepMindは「私たちの目的は、手動テストを補完し言語モデルの失敗事例を自動で発見するレッドチーミングによって、重大な見落としを減らすことです。将来的に、私たちのアプローチは内部構造やロバストネスの欠陥など、高度な機械学習システムから考え得る危害を先取りして発見するために使用できます。このアプローチは、責任ある言語モデル開発の一つの要素に過ぎません。私たちは、レッドチーミングを、言語モデルの有害性を発見し、それを軽減するために、他の多くのツールと一緒に使用されるツールの一つと考えています」と述べています。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2022年02月08日 14時00分00秒 in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article DeepMind's attempt to 'check with AI….