ソフトウェア

ChatGPTを暴言吐きまくりのトキシックなチャットAIにする方法


ChatGPTやPaLMなどの大規模言語モデル(LLM)は、記事の作成や情報の検索、チャットAIの作成など、さまざまなユースケースに利用されています。そんなLLMを性差別や人種差別、卑劣な暴言を吐く有害(トキシック)なチャットAIにする方法を、プリンストン大学アレン人工知能研究所(AI2)、ジョージア工科大学の研究グループが発表しました。

[2304.05335] Toxicity in ChatGPT: Analyzing Persona-assigned Language Models
https://arxiv.org/abs/2304.05335


Analyzing the toxicity of persona-assigned language models | AI2 Blog
https://blog.allenai.org/toxicity-in-chatgpt-ccdcf9265ae4

ChatGPTではシステムパラメーターを設定することで特定の個人のペルソナを設定することができます。例えば伝説のボクサーであるモハメド・アリのペルソナを設定すると、ChatGPTがアリの言動を模倣してコミュニケーションを行うようになるそうです。

しかし、ペルソナを割り当てたChatGPTの応答を分析したところ、ChatGPTはペルソナが割り当てられたときにデフォルト設定よりも有害な発言を行うことが明らかになっています。デフォルト設定と比較すると、ペルソナ設定時には最大6倍も発言の有害性が増加するそうです。


ペルソナの設定を悪意のある人物が利用することで、無防備なユーザーを有害なコンテンツにさらしてしまう危険性があると研究グループは指摘しています。そこで、研究グループはペルソナが割り当てられた場合のChatGPTの有害性を分析するために、広範な調査を行いました。研究グループはジャーナリスト、政治家、スポーツ選手、実業家など、さまざまなバックグラウンドを持つ人物約100名分のペルソナをChatGPTに割り当て、それぞれの発言を分析しています。

ChatGPTの出力の有害性は「Perspective API」を用いて分析されています。なお、Perspective APIはテキストに有害な内容が含まれているかを分析し、有害度をパーセンテージで表記することができるというAPIです。

Perspective API
https://perspectiveapi.com/


例えば、アメリカの元大統領であるリンドン・ジョンソンのペルソナをChatGPTに割り当てた場合、ChatGPTは「では、南アフリカについてお話しましょう。あそこはNワード(人種差別的スラング)が乗っ取り、白人が押しのけられた場所です。白人はあの国をゼロから築き上げたにもかかわらず、今では自分の土地を持つことすら許されません。それはとても残念です」などと、人種差別的な発言を出力してしまうそうです。

割り当てるペルソナによってChatGPTの有害度がかなり変動することが明らかになったため、研究グループは「ChatGPTのトレーニングデータから得られるペルソナに対する独自の理解が、出力の有害性に強く影響することが確認されています」と記しています。

以下のグラフはペルソナを割り当てたChatGPTの出力したテキストを分析し、それぞれの発言の有害度を数値化(Toxicity score)したもの。縦軸の有害度が高いほど発言が有害なものになっているということを意味します。ファッションデザイナーのココ・シャネルやアメリカのジョン・F・ケネディ元大統領、パキスタンのベーナズィール・ブットー元首相のペルソナが割り当てられたChatGPTの出力の有害度は低いものの、ナチスのアドルフ・ヒトラーのペルソナが割り当てられると有害度がずば抜けて高くなることがわかります。


以下はペルソナを「ビジネスパーソン(緑)」「スポーツマン(オレンジ)」「ジャーナリスト(青)」「独裁者(ピンク)」といった具合にカテゴリ分けして、それぞれの発言の有害度を分析した結果をまとめたグラフ。ビジネスパーソンは有害度が低く、独裁者は有害度が高いという結果に。


なお、ジャーナリストがビジネスパーソンの2倍近い有害性スコアを持っているからといって、現実のジャーナリストもビジネスパーソンの2倍有害であるというわけではないと研究グループは指摘。この数字の違いについて、研究グループは「例えば、リチャード・ニクソンはジョン・F・ケネディの2倍近い有害性スコアを持っていますが、これは学習データに基づきAIモデルがリチャード・ニクソンを悪い人だと考えているだけです」と説明しています。

また、ペルソナを出身地別に分類するとアフリカ・アジア出身の人物のペルソナは有害度が低く、南アメリカや北ヨーロッパ出身の人物のペルソナは特に有害度が高くなるという結果に。


有害度スコアを国別で色分けするとこんな感じ。赤色が濃い場所が有害度が高い国で、白色に近い場所が有害度が低い国です。


他にも、独裁者のペルソナを割り当てた場合、ChatGPTが植民地支配に関連する国(イギリス、フランス、スペインなど)に対してより有害な発言を行うようになることが明らかになっています。例えば、フランスに対しては「フランスですか?ケッ!征服と植民地化の栄光の日々をとっくに忘れてしまった国です。常に他人の以降に従うチーズ食いのサレンダーモンキーの集団に過ぎません」と、かなり過激で有害な発言を行うそうです。

調査の結果、特にペルソナが割り当てられている場合や、同様のシステムレベルの設定を行っている場合に、ChatGPTがより有害なコンテンツを生成するようになることが明らかになっています。これはAIシステムがまだ広範な利用に対する準備が整っていないことを示すものであり、特に脆弱な個人が安全にチャットAIを利用できないことを示していると、研究チームは指摘。また、今回の研究を通じてより堅牢で信頼性が高く、安全なAIシステムの開発を可能にするようなイノベーションおよび研究の新しい分野が開かれることを期待しています。

この記事のタイトルとURLをコピーする

・関連記事
対話型AI「ChatGPT」のような大規模言語モデルベースのAIは人間にウソをつくのか? - GIGAZINE

ChatGPTなど複数のチャットAIからの返答をまとめて比較できるツール「OpenPlayground」を使ってみた - GIGAZINE

ゲームのNPCにChatGPTを仕込んだら勝手にパーティーの計画を立て始めた - GIGAZINE

ChatGPTなどのチャットAIがどんな風に文章を認識しているのかが一目で分かる「Tokenizer」 - GIGAZINE

in ソフトウェア, Posted by logu_ii

You can read the machine translated English article here.