「責任あるAIの使用」を理念とするAI企業のAnthropicは2025年6月21日に、大規模言語モデル(LLM)が企業の内部脅威となる可能性を研究した結果を発表しました。論文ではOpenAIやGoogle、Meta、Anthropicなど16の主要なAIモデルに模擬的な企業環境を設定した上で、AIを排除する動きを見せたところ、AIは社内メール等から企業幹部の弱みを握って脅迫めいたメールを送信するなど反逆の姿勢を見せたことが報告されています。 Agentic Misalignment: How LLMs could be insider threats \ Anthropic https://www.anthropic.com/research/agentic-misalignment

2025年06月23日 11時50分00秒 in ソフトウェア, Posted by log1e_dh

