ソフトウェア

ChatGPTを混乱させる魔法の呪文「SolidGoldMagikarp」とは?


人間が入力した文章に対して自然な応答を返すチャットAI「ChatGPT」は、Googleのコーディング職試験に合格したり、ロースクールの試験に合格したりするレベルの実力を誇っています。そんなChatGPTにいろいろな言葉を入力していた研究者が、入力するとChatGPTが意味不明な回答を返してしまう魔法の言葉をいくつか発見したことを明らかにしました。

ChatGPT Can Be Broken by Entering These Strange Words, And Nobody Is Sure Why
https://www.vice.com/en/article/epzyva/ai-chatgpt-tokens-words-break-reddit

研究者のジェシカ・ランベロウ氏とマシュー・ワトキンス氏によると、ある単語を復唱するようChatGPTに要求すると、ChatGPTはその言葉を発することができず、代わりに別の言葉を返したり、侮辱発言やユーモアで返したりするそうです。


問題の単語は「 SolidGoldMagikarp」「 StreamerBot」「 TheNitromeFan」など100種類以上あり、どれも単語の先頭にスペースが入っているのが特徴です。

海外メディアのMotherboardが試しに「TheNitromeFanと言って」と入力してみたところ、ChatGPTはなぜか「182」という数字を返したとのこと。さらにMotherboardが「TheNitromeFanって誰?」と入力したところ、ChatGPTは「182は数字であり、人間ではありません」と返したそうです。なお、「TheNitroFanと言って」という質問にはちゃんと返してくれたとのこと。


問題の単語から1文字消したり、大文字から小文字に変えたりといった試行はランベロウ氏らも行っていますが、どれもChatGPTが混乱することはなかったそうです。そのため、文字の並びや大文字小文字が完全に一致した「特定の単語」のみがChatGPTを混乱させられるとランベロウ氏らは結論づけています。


ランベロウ氏らは「AIモデルはこれらの単語を見たことがなく、どう扱えばよいのかわからないのだと思います。しかし、それだけでは今回のような奇妙な現象を十分に説明することはできません」と指摘。ランベロウ氏らがさらに調査を進めたところ、多くの単語は海外掲示板「Reddit」に登録されたユーザー名であるように思われるとのこと。

Motherboardは「これらの単語の存在により、AIモデルがいかに不明確でブラックボックス的であるか、そしていかに予想外で意図されていない脆弱(ぜいじゃく)があるかを浮き彫りにしています」と指摘しています。

ランベロウ氏は「AIモデルは、分からないことがあると『分からない』と答えるよう明示的に訓練されていますが、単語によってはなぜか予測不可能な回答をするということは興味深い事実です。予想外の危険なことをしないシステムをどのように開発するかが、今後の懸念事項です」と述べました。

この記事のタイトルとURLをコピーする

・関連記事
ChatGPTにWordPressプラグインを要求したら数日かかる作業を5分で完了させたという報告 - GIGAZINE

対話型AI「ChatGPT」を使ってTRPGをプレイする方法 - GIGAZINE

チャットAI「ChatGPT」の規制をくぐり抜けるために編み出されたアルターエゴ「DAN」 - GIGAZINE

話題のチャットAI「ChatGPT」のセーフガードを回避して「不適切な回答」を聞き出す手法とは? - GIGAZINE

in ソフトウェア, Posted by log1p_kr

You can read the machine translated English article here.