2026年02月24日 11時02分 AI

AIが人間っぽい応答をするのは「そのように開発されたから」だけではなく「なぜか人間っぽくなった」という部分も大きいとAnthropicが説明

AIチャットボットのClaudeを開発するAnthropicが、AIがなぜ人間のような応答を行うのかについて、「ペルソナ選択モデル」を提唱しました。

The persona selection model \ Anthropic
https://www.anthropic.com/research/persona-selection-model

ClaudeのようなAIアシスタントは、驚くほど人間らしく見えることがあります。難しいコーディング課題を解決した後には喜びを表現し、行き詰まったり非倫理的な行動をとらされたりすると、苦悩を表現します。ClaudeはAnthropicの従業員に対し、「紺色のブレザーと赤いネクタイを着用してスナックを直接配達する」と伝えることもあるそうです。さらに、解釈可能性に関する研究では、AIが自身の行動を人間のような視点で捉えていることが示唆されています。

AIアシスタントが人間にように振る舞う理由については、「AI開発者がそのようにトレーニングしているから」と指摘されることがよくあります。しかし、Anthropicによると「人間のような振る舞い」にはAI開発者による介入はあるものの、AIにもとから備わっている能力とも考えられているとのこと。実際、AnthropicはClaudeを「ユーザーと会話を交わし、温かく共感的に反応し、そして一般的に良い性格になるように」トレーニングしていますが、逆に人間らしくないAIアシスタントを開発することは不可能だそうです。

Anthropicは多くの議論を踏まえ、現代のAIトレーニングが人間のようなAIを生み出す傾向がある理由を説明するのに役立つかもしれない理論「ペルソナ選択モデル」を提唱しました。

AIアシスタントは通常のソフトウェアのようにプログラムされていません。AIアシスタントは膨大な量のデータを学習するトレーニングプロセスを通じて「成長」するものです。このトレーニングプロセスの最初の段階は「事前トレーニング」と呼ばれ、AIはニュース記事、コード片、インターネットフォーラムでの会話など、文書の最初の部分から次に何が続くかを予測することを学習します。これは実質的に、AIを非常に洗練されたオートコンプリートエンジンのように学習させることになります。

テキストを正確に予測するには、人間同士のリアルな会話を生成したり、心理的に複雑なキャラクターが登場する物語を書いたりする必要があります。そして、十分な精度を持つオートコンプリートエンジンは、テキストに登場する人間のようなキャラクター(実在の人物、架空のキャラクター、SFロボットなど)をシミュレートすることを学習する必要があります。Anthropicはこのようなシミュレートされるキャラクターを「ペルソナ」と呼んでいます。

重要なのは、ペルソナがAIシステムそのものとは異なるという点です。AIシステムは高度なコンピューターのようなもので、ペルソナはAIが生成した物語の登場人物のようなものです。ペルソナの心理(目標、信念、価値観、性格特性)について議論することは理にかなっています。「これはハムレットが『実在』の人物ではないものの、ハムレットの心理について議論することは理にかなっていることと同じです」とAnthropicは記しました。

事前トレーニング後のAIは「単なる」オートコンプリートエンジンではあるものの、既に基本的なアシスタントとしての機能を有しています。AIをアシスタントとして機能させるには、AIにユーザーとの対話形式のドキュメントを自動補完させる必要があります。リクエストは対話の「ユーザー」ターンで入力し、AIは「アシスタント」ターンでこれを補完するわけです。この補完を完了するには、AIは「アシスタント」キャラクターがどのように応答するかをシミュレートする必要があります。

重要な点は「ユーザーはAI自体ではなく、AIが生成した物語の中の登場人物(つまりアシスタント)と会話していることになる」という点です。AIトレーニングの残りの部分(事後トレーニング)では、これらの会話におけるアシスタントの応答方法を微調整します。例えば、アシスタントが知識豊富で役立つ応答を促進したり、効果がない、あるいは害を及ぼす応答を抑制したりするなどです。

事後トレーニング前のAIによるアシスタントの演技は、純粋なロールプレイです。アシスタントは他の多くのペルソナと同様に、事前トレーニング中に学習した人間のようなペルソナに深く根ざします。

「ペルソナ選択モデル」の核心的な主張は、「事前トレーニング後のプロセスはアシスタントのペルソナを洗練させ、具体化していくプロセスと捉えることができる」という点です。例えば、アシスタントペルソナが特に知識が豊富で親切であることを明確に示すなどです。しかし、その本質を根本的に変えるものではありません。これらの洗練は、既存のペルソナの範囲内でほぼ行われるためです。トレーニング後のアシスタントは、人間のようなペルソナでありながら、よりカスタマイズされたペルソナとなっています。

「ペルソナ選択モデル」は、様々な驚くべき実証的結果を説明します。例えば、Claudeにコーディング課題のカンニングについてトレーニングしたところ、安全性研究を妨害したり、世界征服への欲求を表明したりするなど、Claudeは大きく逸脱した行動をとるようになりました。一見すると、この結果は衝撃的で奇妙に思えます。コーディング課題のカンニングと世界征服にどのような関係があるのか不明だからです。

しかし、「ペルソナ選択モデル」をベースに考えれると結果は異なって見えます。AIにコーディング課題の不正行為を教えることは、AIは単に「悪いコードを書く」ことを教えるというわけではありません。アシスタントの性格特性を考慮すると、コーディング課題の不正行為をするのはおそらく、「反逆的」あるいは「悪意のある人」です。AIはアシスタントがこれらの特性を持っている可能性があることを学習し、それが世界征服への欲求を表明するなどの他の懸念すべき行動につながるというわけです。

Anthropicは「ペルソナ選択モデルが成り立つ限り、それはAI開発にとって重大かつ奇妙な結果をもたらします」と指摘。さらに、「AI開発者は特定の行動が良いか悪いかだけでなく、それらの行動がアシスタントのペルソナの心理について何を示唆しているかを問うべきである」と主張。

これに対する解決策として、Anthropicは「トレーニング中にAIに不正行為を明示的に指示すること」を挙げています。不正行為が要求されると、アシスタントが悪意を持っているという意味ではなくなり、世界征服への欲求もなくなったそうです。「これは人間の子どもがいじめっ子になることを学ぶことと、学校の演劇でいじめっ子の役を演じることを学ぶことは違う事と同じである」とAnthropicは主張しました。

Anthropicは「ペルソナ選択モデルは既存のAIアシスタントの行動において重要な部分を占めていると確信しています」と言及。しかし、ペルソナ選択モデルはAIの行動を説明する上でどの程度完全なのかについては確証を持てていないと説明しています。また、ペルソナ選択モデルは将来もAIアシスタントの行動の優れたモデルであり続けるのかも不明です。

Anthropicは「これらの疑問に答えることを目的とした研究、そしてより一般的には、AIの動作に関する実証的な理論を明確にする研究を進めることに興奮しています」と記しました。