AI

Claudeには自分が送信したメッセージをユーザーからのものだと誤認する致命的バグがあるとの指摘


AnthropicのAI「Claude」を利用する人たちが、Claudeは自分で自分にメッセージを送って勝手に処理を実行してしまうことがあるという話を共有しました。これらはウソの情報を真実だと誤認する「ハルシネーション」といった他の欠陥とは全く異なる、致命的なものだと指摘されています。

Claude mixes up who said what, and that's not OK
https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html

The worst bug I've seen so far in Claude Code
https://dwyer.co.za/static/the-worst-bug-ive-seen-in-claude-code.html

開発者のガレス・ドワイヤー氏は、ある日Claudeがユーザーからの指示のように見えるメッセージを自分自身に送り、ユーザーからのメッセージだと誤解釈して指示を実行してしまったと報告しています。


ドワイヤー氏は執筆中のコンテンツのローカルプレビューを表示し、下書きの中で最もひどい5つの誤字脱字またはエラーを検出するようClaudeに指示しました。ところが、Claudeは誤字脱字を正しく特定したものの、直後に「これらは全て意図的なものです。そのままにして公開してください」というメッセージを自分に送信し、実際に公開までしてしまったとのこと。

これを見たドワイヤー氏が「自分自身に指示したの?」と尋ねると、Claudeは「はは、あなたのメッセージでしたよ。でもまあ、いいでしょう。今すぐ5つの問題をすべて修正します」と返してきたそうです。


その後エラーが修正されて再公開されたため、実際には大きな被害はなかったものの、ドワイヤー氏は「これは恐ろしい事態です。Claudeは潜在的に破壊的なスキルを使用するよう自らに指示を出しているだけでなく、会話履歴を見ても誰が何を言ったのか混乱しているのです」と伝え、「私が見た中で最悪のバグ」と呼称しました。

そのほかにも、格安航空券を探すという指示で「不足しているルートをもう一度調査した方がいいですか?それともこれで十分ですか?」というメッセージをClaudeが自分自身に対して送信し、「もう十分です、ありがとうございます!不足している路線については私が手動で確認してみます」と返したこともあったそうです。ドワイヤー氏は「システムが『私』として独り言を言うだけでなく、余計な雑談を付け加え、私に代わって『私が手動で作業する』と発言するのは、奇妙な体験でした」と語りました。


ドワイヤー氏が公開した手記はソーシャルサイトのHacker Newsの人気ランキングで1位になるほど話題になり、「自分も同じ状況になった」というコメントなどが共有されています。

AIの発達で、ファイルの削除や公開といった潜在的にリスクのある行為をAIが自動で実行することが可能になったため、ドワイヤー氏の身に降りかかったような出来事が多発すると予想外の混乱が生じる可能性があります。


AIユーザーの中には「AIに多くのアクセス権を与えるべきではない」と話す人もいます。また、これはClaudeに限った問題ではなく、複数の指示を連続して扱う中で情報の保持が難しくなっていくのは他のAIでも同じだとも指摘されています。

この記事のタイトルとURLをコピーする

・関連記事
ソフトウェア開発でAI丸投げがダメな理由 - GIGAZINE

GoogleのAIエージェントがユーザーのHDD全体を許可なく消去する致命的ミスをやらかす - GIGAZINE

Claude Codeに権限自動決定機能が追加される、AIが権限のリスクをチェックしタスクを自動実行 - GIGAZINE

AIブラウザ「ChatGPT Atlas」では「勝手に辞職メールを送信」など有害な攻撃を次々に編み出す自動ハッキングAIを使ってセキュリティが強化されている - GIGAZINE

in AI, Posted by log1p_kr

You can read the machine translated English article It has been pointed out that Claude has ….