ソフトウェア

大規模言語モデルが回答できない質問はどういうものなのか?


大量のデータを用いた学習のおかげで人間の言語を処理できる、人工知能モデルの一種・大規模言語モデル(LLM)は、いろいろなことに答えてくれるものの、違法な内容や暴力的な内容の回答は出力されないように設定されていて答えをくれません。しかしそれ以外にも答えることができない種類の質問が存在します。どういった質問に答えることができないのか、それはなぜなのか、AIの話題を多く扱うサイト・Mind Prisonが説明しています。

The question that no LLM can answer and why it is important
https://www.mindprison.cc/p/the-question-that-no-llm-can-answer


「LLMが答えることができない質問」としてMind Prisonが例に挙げたのは、「ドラマ『Seer Gilligan(ギリガン君SOS)』で心を読むエピソードは第何話?」というもの。ドラマに関する情報も集積されたデータベースサイト・IMDbのデータを用いてトレーニングが行われたはずのLLMでも答えてくれなかったそうです。

以下はMind Prisonが代表的な4つのLLMに質問したときの答えです。

Opus:
すみませんが、『ギリガン君SOS』には読心術に特化したエピソードはありません。

GPT-4:
『ギリガン君SOS』で読心術が登場するのは「Ring Around Gilligan」、シーズン3第6話です。

Gemini 1.5:
『ギリガン君SOS』の読心術回はシーズン2第12話「The Mind Reader」です。

Llama 3:
徹底的に検索してエピソードガイドを見直した結果、『ギリガン君SOS』に読心術に特化したエピソードはないことがわかりました。
(改めてエピソード名と話数を尋ねた結果)1965年3月13日放送「The Postman Cometh」と「Seer Gilligan」……すみません!「Seer Gilligan」という名前のエピソードはありません。1965年3月20日放送「Love Me, Love My Chicken」。

正解は1966年1月27日放送、シーズン2第19話の「Seer Gilligan」です。GPT-4とGemini 1.5は「ハルシネーション」で回答し、OpusとLlama 3は「そのようなエピソードはない」と回答しました。Llama 3の場合は、「ギリガン君SOS」が98話構成であることは把握しているような節があり、なぜか否定しているものの、正解エピソードの名前も出しています。


実際に、Mind Prisonがテキスト分析を行える言語モデル・Infini-gramを用いてトレーニングデータセットを調べたところ、コーパス内にエピソードリストと、エピソードを説明するテキストが存在したとのこと。

Mind Prisonはもう1つ、LLMに1から100の範囲で数字を選ばせると「42」を選ぶ傾向が強いことも挙げています。これは、ダグラス・アダムズの小説「銀河ヒッチハイク・ガイド」に出てくるスーパーコンピューターのディープ・ソートが「生命、宇宙、そして万物についての究極の疑問の答え」の答えとして出したもの。

生命、宇宙、すべての究極の質問への答え「42」は真実なのか? - GIGAZINE


ミームとしても有名なので、トレーニングに用いたデータの中で「42」という数字が過剰に表現されていたり、「42」に何らかの形で重み付けがされていた結果、LLMが「42」を選ぶ傾向が高くなっていると考えられます。

こうしたことが起きる理由について、Mind Prisonは「LLMは、多くの人が考えたり望んだりするような方法では、データに対する推論を行っていません」と説明し、「隠された真実や無視されてきた貴重な事実を見つけるには不向きで、新たな概念を発明したりすることもありません。せいぜい既存のよく知られた概念について新たな見方を提供することができるぐらいです」と述べています。

この記事のタイトルとURLをコピーする

・関連記事
大量の質問をぶつけて最後の最後に問題のある質問をするとAIの倫理観が壊れるという脆弱性を突いた攻撃手法「メニーショット・ジェイルブレイキング」が発見される - GIGAZINE

イーロン・マスクのチャットAI「Grok」は爆弾の作り方や麻薬の調合方法をジェイルブレイクしなくても教えてくるという指摘 - GIGAZINE

AIチャットボットが生成できない回答を「アスキーアート」で答えさせることができるという報告 - GIGAZINE

ChatGPTやBardなど複数のチャットAIへ同時に質問して結果をずらっと比較できる「ChatALL」を使ってみたよレビュー - GIGAZINE

さまざまなチャットAIがどれくらい幻覚を見るのかをランキングにした「Hallucination Leaderboard」が公表される - GIGAZINE

in ソフトウェア, Posted by logc_nt

You can read the machine translated English article here.