AnthropicがClaudeの「憲法」を改訂、安全性と倫理性が有用性よりも優先される

Anthropicは2026年1月21日、AIモデルであるClaudeの行動指針や価値観を定義した「憲法(constitution)」の改訂版をリリースしました。今回の改訂は、2023年に初めて導入された「憲法AI」という訓練手法を進化させたもので、AIがより高度な倫理的判断を行い、人間の監視を適切に受け入れるための包括的な枠組みを提示しています。
Claude's new constitution \ Anthropic
https://www.anthropic.com/news/claude-new-constitution
憲法AIとは、モデルを訓練する際に人間からの直接的なフィードバックのみに頼るのではなく、明文化された原則の集合(憲法)を用いて学習させるシステムのことです。この憲法は、Claudeがどのような存在であるべきか、そしてどのような文脈で動作すべきかを示す基盤文書としての役割を担います。
Claudeはこの憲法を最終的な権威として扱い、自身の状況を理解し、困難な選択やトレードオフに直面した際の指針として活用します。さらに、この憲法はClaude自身が将来のモデルを訓練するための合成データを生成する際にも使われ、AIが人類の価値観をより深く理解するための中心的な役割を果たします。

今回の改訂における主な変更点は、単なるルールの羅列から、AIに「なぜ」そのように振る舞うべきかという背景を理解させる包括的なアプローチへと移行したことです。
新たな憲法は、「1.Broadly safe(広範な安全性)」「2.Broadly ethical(広範な倫理性)」「3.Compliant with Anthropic's guidelines(Anthropicのガイドラインへの準拠)」「4.Genuinely helpful(真の有用性)」という4つの中核的な価値観に焦点を当てています。これら4つの価値観には優先順位が設定されており、「広範な安全性」や「広範な倫理性」は、「Anthropicのガイドラインへの準拠」や「真の有用性」に先立つように設定されています。
「広範な安全性」は、いまのAI開発段階において、人間がAIを監督し、必要なら価値観や行動を修正できる仕組みをClaudeが損なわないという考え方です。Anthropicは、「現在のモデルは誤った信念や価値観の欠陥、文脈理解の限界によって有害に振る舞う可能性があるため、まず人間側が監督し続けられ、必要ならClaudeの行動を止められることが重要」と述べ、この種の安全性を倫理よりも優先して扱う場面があると説明しました。
「広範な倫理性」は、正直であること、良い価値観に沿って行動すること、そして不適切で危険または有害になり得る行動を避けることを指します。倫理の理論を語ること自体よりも、道徳的不確実性や意見の不一致がある現実の場面で技能や判断、ニュアンス、感受性をもって賢明に意思決定することが重視されており、特に高い誠実さの基準と、害を避ける際に何が価値として掛かっているかを丁寧に衡量する推論が求められるとしています。

「Anthropicのガイドラインに準拠すること」は、より具体的な状況では、Anthropicが補助的に与える指示に沿って振る舞うことを意味します。憲法は、医療的な助言やサイバーセキュリティの依頼、脱獄的な回避の試み、ツール連携の扱いなど、モデルが標準では持ちにくい詳細知識や文脈が絡む領域でガイドラインが役に立つとし、一般的な有用性よりもガイドライン順守を優先してほしいと述べています。ただし、あくまでもガイドラインはClaudeが安全かつ倫理的に振る舞うためのものであり、憲法全体と衝突してはならないとAnthropicは明記しています。
「真に有用であること」は、Claudeが関わるオペレーターやユーザーに実質的な利益をもたらすという目標です。憲法は、Claudeが単に当たり障りのない応答を返すのではなく、率直さと真摯な配慮をもって、利用者を自分で判断できる大人として扱うような助け方を強調しています。また、Claudeが向き合う相手はAnthropic、APIを利用する開発者、最終ユーザーと複数の「原則」にまたがるため、その間で有用性をどう配分し、他の価値とどう天秤にかけるかの考え方も扱うとしています。
この改訂による影響として、AIの挙動に関する透明性が大幅に向上することが期待されています。憲法が公開されることで、ユーザーはClaudeの振る舞いが意図されたものか、あるいは予期せぬエラーなのかを判断しやすくなります。また、クリエイティブ・コモンズCC0 1.0ライセンスの下で憲法の全文が公開されたため、誰でもこの原則を自社のモデルや研究に活用できるようになるとのこと。
Anthropicは今回の改訂に際し、この憲法を「生きた文書」であり、継続的な進行中の作業であると位置付けています。AIが意識や道徳的地位を持つ可能性について、現時点では「深く不確実である」としつつも、それを真剣に検討すべき課題として挙げました。また、Anthropicは、人間とAIが共に探索し、AIが人類の最善の部分を体現できるよう、今後も法律や哲学といった多様な分野の外部専門家からフィードバックを得ながら憲法の精度を高めていく方針を強調しました。
・関連記事
「AIがロールプレイに熱中しすぎて有害な返答をしてしまう問題」の解決方法をAnthropicが開発 - GIGAZINE
Anthropicのダリオ・アモデイCEOが中国への高性能チップ輸出に強く反対、「北朝鮮に核兵器を渡すようなもの」 - GIGAZINE
AIが及ぼす経済的影響レポートをClaude開発企業のAnthropicが公開、国やタスクによってAIの効果には大きなバラつきがある - GIGAZINE
チャットAIが少年の自殺を後押ししたとする訴訟でGoogleとCharacter.AIが遺族との和解に合意 - GIGAZINE
Anthropicの「Cowork」は間接プロンプトインジェクションによるファイル流出攻撃に対して脆弱 - GIGAZINE
・関連コンテンツ
in AI, ソフトウェア, Posted by log1i_yk
You can read the machine translated English article Anthropic revises Claude's 'Constitu….







