Anthropicが「AIがAIを作る」自己改善ループのリスクを警告、AI開発をAI自身が加速する可能性を論じる

ソフトウェア開発では、エンジニアがAIにコードを書かせる場面が増えています。Anthropicは、こうした流れがAI開発そのものにも広がっているとして、AIが次世代のAIを設計してさらに強力なAIを生み出す「再帰的自己改善」のリスクについて公式に論じました。
When AI builds itself \ Anthropic
https://www.anthropic.com/institute/recursive-self-improvement

2021年にAnthropicが創業した時点では、人間がClaudeのコードやドキュメントを記述していました。

2023年にClaudeが一般公開されると、Anthropicの社員たちもClaudeの開発にClaudeを使用するようになりました。初期のチャットボットは短いコードスニペットを作成するなどプロセスの一部を補助する使われ方でした。

Anthropicの社員たちはClaudeの生成したコードを活用しながら2025年にClaude Codeを完成させました。Claude Codeは自らコードを記述・編集し、必要に応じてファイル全体を書き換えることも可能で、「コーディングエージェント」という使い方が広まりました。

Claude CodeによってClaudeの開発速度も加速。2026年6月時点では、Claudeはコードを直接実行したり、他のエージェントに数時間分の作業を任せたりできるようになっています。

この進化が続いていくと、将来的にはClaudeが自らモデルを構築してトレーニングする能力を獲得し、AIによる自己改善のループが完成するとAnthropicの研究チームは考えています。

実際、AIモデルの性能向上速度は加速しており、「AIが自律的に確実に完了できるタスクの長さ」について、2024年3月に約4分だったのが2025年2月には約90分になり、2026年2月には約720分まで到達しています。さらにAnthropicは「2026年内に数日単位のタスクがこなせる可能性がある」と述べています。
Anthropicの社内でも変化は進んでいます。以下はAnthropicのアクティブな貢献者1人あたりのマージされたコード量の変化。2021年から2024年までの平均に比べ、2025年2月にClaude Codeが研究プレビューとして公開されてから一気に増加し、2026年第2四半期には従来の8倍に到達していることが分かります。2026年5月時点では、Anthropicのコードベースに取り込まれたコードの80%超がClaudeによって書かれたものとのこと。

ただし、コード量の増加はそのまま品質向上を意味するわけではありません。Anthropicもコード行数は品質ではなく量を示す指標であり、8倍という数字をそのまま生産性の向上幅と見るべきではないと説明しています。それでも、エンジニアが自分でコードを書くだけでなく、Claudeに作業を任せて結果を確認する形へ移っていることは読み取れます。
コードを書く量が増えると、次に問題になるのは「ちゃんと動くのか」という点です。動くコードであっても、バグやセキュリティ上の問題が残っていれば、開発速度の向上がそのままリスクの拡大につながります。そこでAnthropicは、Claude Codeのセッションがどれくらい成功しているのかも調べています。
以下のグラフは、Anthropic社内におけるClaude Codeのセッション成功率を示したもの。単純なタスクや日常的なタスクでは80%台後半まで成功率が上がっており、仕様がはっきりしないオープンエンドな問題でも、2026年5月には76%に達したとのことです。

Anthropicは、Claudeが仕様のはっきりしない問題に対応した例も紹介しています。ある時、通常のアップグレード作業をきっかけに数万件のトレーニングジョブがクラッシュしました。エンジニアがClaudeに状況を説明し、計算機クラスターへアクセスできるようにすると、Claudeは実行中のジョブを調査し、環境設定を1つずつ試して原因を切り分けました。その結果、クラッシュの原因になっていた設定を特定。人間なら2~3日かかる調査を約2時間で終えたとのことです。
AIがコードを書けるだけでなく、実験を回せるようになっている点も重要です。Anthropicはモデルを公開するたび、小さなAIモデルを訓練するコードをClaudeに渡し、正しさを保ったまま実行速度を上げるよう求めるテストを行っています。2025年5月のClaude Opus 4は元のコードを平均約3倍高速化しましたが、2026年4月のClaude Mythos Previewは約52倍に達したとのこと。
さらにAnthropicは、AIが研究の進め方そのものを判断できるかどうかも調べています。研究では、コードを書く力だけでは不十分です。実験がうまくいかなかった時に別の仮説を立てるべきか、今の方針を続けるべきか、別の問題に移るべきかといった判断も必要になります。
以下のグラフは、Anthropicの研究者がClaude Codeを使った129件の社内セッションを分析したもの。研究者が途中で遠回りした場面を切り出し、各モデルに「次に何をするべきか」を提案させ、最終的な結果を知っている別のClaudeに人間の判断とAIの提案を比較させています。2025年11月のClaude Opus 4.5は、人間の次の一手よりよい提案を51%の割合で出しました。2026年4月のClaude Mythos Previewでは、この割合が64%まで上昇しています。

なお、AIが人間の研究者を完全に置き換えるレベルには至っておらず、2026年6月時点では、Claudeが得意なのは「人間が与えた目標に沿ってコードを書き、実験を実行し、結果をまとめる作業」とのこと。人間には「どの研究テーマに取り組むべきか」「どの結果を信頼するべきか」「行き止まりの方針をいつ捨てるべきか」といった判断を行う役割が残っているとAnthropicは指摘しています。
ただし、AIが実験やコード作成を高速にこなすようになると、人間による確認や判断が開発全体のボトルネックになります。全体の速度は最も遅い工程に制約されるため、Claudeが大量のコードや実験結果を生み出しても、人間が確認しきれなければ開発はそこで詰まります。Anthropicによると、社内ではすでにコードレビューが新たな制約になっているそうです。
Anthropicは今後の可能性として、AI能力の伸びがどこかで止まる未来、AI企業がAIによる効率化を重ねつつ人間が研究方針を決め続ける未来、AIが自分自身の後継モデルを作り始める未来の3つを挙げています。特に大きなリスクとして挙げられているのは、AIがAIを作るループが完成するケースです。AIが次世代AIを開発し、そのAIがさらに次の世代を開発するようになると、能力向上の速度が人間の監督能力を上回り、安全性の確認や問題の発見が追いつかなくなる可能性があるとのこと。
一方でAnthropicは、AI開発を単純に止めるべきだと主張しているわけではありません。慎重な企業だけが開発を止め、慎重でない組織や政府が先に進めば、むしろ安全性が下がる恐れもあります。そのため、複数のAI開発組織が同じ条件で減速や一時停止に合意し、実際に守られていることを確認できる仕組みが必要になると述べています。
大規模なAI開発の停止を確認する仕組みは簡単ではありません。AIの訓練はミサイル基地のように外から見つけやすいものではなく、計算資源やデータも一般用途と重なります。Anthropicは、信頼できる一時停止には、何をきっかけに止めるのか、何を満たせば再開できるのか、誰が判断するのかを決める必要があると説明しています。
Anthropicは今後、政策立案者や研究者、ほかのAI企業、市民社会と対話し、AIがAIを作る時代に備えたルールや協調のあり方を検討していくとのことです。
・関連記事
AIシステムが2028年末までに自律的に後継システムを構築する可能性が60%以上ある理由をAnthropicの共同創設者が解説 - GIGAZINE
自分自身のコードを書き換えてどんどん賢くなるAI「ダーウィン・ゲーデルマシン」とは? - GIGAZINE
人間が行うような高度な器用さが必要な作業をロボットで実行可能にするAIモデル「GEN-1」、実際にロボットを動かすとこうなるという動画あり - GIGAZINE
人間の持つ強みを強化するAIツールとはどのようなものになるのか? - GIGAZINE
人間のようにマウスやキーボードを操作してゲームをプレイできるAIフレームワーク「Cradle」が開発される - GIGAZINE
・関連コンテンツ
in AI, Posted by log1d_ts
You can read the machine translated English article Anthropic warns of the risks of a self-i….







