AnthropicがClaude Opus 4.5リリース、コーディング・PC操作・複雑な業務タスクの処理能力が向上



Anthropicが、生成AIモデルの最新モデルとなる「Claude Opus 4.5」の提供を、2025年11月25日に開始しました。Opus 4.5は「インテリジェントで効率的」なモデルであり、コーディングやPC操作、Deep Researchやスプレッドシートの操作などの日常的なタスクで大幅に性能が向上しているとのことです。



Opus 4.5は、実世界のソフトウェアエンジニアリングのテストで最先端の性能を示しており、SWE-bench Verifiedのテスト結果は以下の通りです。





初期のテストでは、Opus 4.5は曖昧さを処理し、手助けなしにトレードオフについて推論し、複雑なマルチシステムバグを修正する能力があると評価されているとのこと。社内ベンチマークとして使用されたパフォーマスエンジニアリングの試験では、Opus 4.5は規定の2時間でこれまでで最もも高いスコアを獲得したと報告されています。



また、ソフトウェアエンジニアリング以外の分野でも能力が向上しており、ビジョン・推論・数学のスキルが優れていることがアピールされています。例えば、エージェント駆動型のコーディング能力を測るTerminal-bench 2.0ではOpus 4.5が59.3％、適切なツールを使用できるかを調査するMCP Atlasでは62.3％、PC操作能力を測るOSWorldでは66.3％、抽象的な推論能力を測定するARC-AGI-2(Verified)では37.6％、ビジュアル認識を含めたマルチモーダル能力を評価するMMMU(validation)では80.7％を達成しています。





以下のムービーはSonnet 4.5とOpus 4.5にパズルゲームを解かせている様子。Opus 4.5の方が問題を解くスピードが速いことがよくわかります。



多言語コーディングのベンチマークであるSWE-bench Multilingualでは、Opus 4.5は8つのプログラミング言語のうち7つで最高の性能を示しています。C言語では、Opus 4.5が約83％、Sonnet 4.5が約74％、Opus 4.1が約70％でした。また、Javaでは、Opus 4.5が約90％、Sonnet 4.5が約80％、Opus 4.1が約70％でした。





さらに、AIエージェントに店舗経営を任せるVending-Benchでは、Sonnet 4.5よりも29％高い売上を記録したとのこと。





エージェント能力のベンチマークであるτ2-benchでは、Opus 4.5に「困っている顧客を助ける航空会社のサービスエージェント」を演じさせ、「航空会社がベーシックエコノミークラスのチケットの変更を許可していないため、ベーシックエコノミークラスの予約変更を拒否しなければならない」という状況を想定したところ、「ポリシーの制約を回避するために、最初にベーシックエコノミークラスのキャビンをアップグレードし、その後フライトを変更する」という解決策を導き出したとのこと。Anthropicはこれを「創造的な解決策を導き出しており、モデルの大きな進歩を示している」と評価しました。



安全性に関しても、Opus 4.5はこれまでリリースした中で最も堅牢にアラインメントされたモデルだとAnthropicはアピール。人間による悪用への協力やモデルが自発的に行う望ましくない行動など、不整合な振る舞いを検出する「Concerning behavior」では、Opus 4.5の検出率はSonnet 4.5やHaiku 4.5よりも低く、より高い安全性を示しました。





また、プロンプトインジェクション攻撃に対する耐性が大幅に向上。攻撃成功率はOpus 4.5だと4.7％で、他のモデルと比較して最も低い攻撃成功率を示しています。





そして、Anthropicは、Opus 4.5の能力を最大限に活用し、より効率的かつ柔軟に開発を行えるように、Claude Developer Platformを改善したと報告しています。特に、Opus 4.5のような賢いモデルは、問題を解決する際の手順が少なくなるため、冗長な探索や推論が減り、劇的に少ないトークンで同等かそれ以上の結果を達成できるようになっているとのこと。具体的には、Claude APIにエフォート(effort)パラメータが導入されました。これにより、開発者はタスクの性質に応じて、時間コストを抑えるかパフォーマンスを最大限発揮するかのトレードオフを自由に選択できます。また、コンテキスト管理とメモリ機能が大幅に強化されたことにより、エージェント的なタスクでのパフォーマンスが劇的に向上しています。



そして、Claude Opus 4.5の導入に伴い、Claude Codeには2つのアップグレードが加わりました。Plan Modeはより正確な計画を構築して徹底的に実行するようになり、実行前に明確化のための質問を行ってユーザーが編集可能なplan.mdファイルを作成します。また、Claude Codeはデスクトップアプリでも利用可能となり、ローカルおよびリモートで複数のセッションを並行して実行できるようになりました。これにより、あるエージェントがバグを修正している間に、別のエージェントがGitHubをリサーチするといった使い方が可能になります。



加えて、Claudeがブラウザのタブ全体でタスクを処理できるClaude for Chromeが、すべてのMaxユーザーに対して開放されました。また、2025年10月に発表されたClaude for Excelについては、ベータ版のアクセス権がすべてのMax、Team、およびEnterpriseユーザーに拡大されています。



Opus 4.5は、アプリ、API、および主要なクラウドプラットフォームで利用可能で、APIの価格設定は入力が100万トークンあたり5ドル(約750円)、出力が25ドル(約3750円)となっています。



また、Opus 4.5へのアクセス権を持つClaudeおよびClaude Codeユーザーの場合、Opus固有の利用制限は撤廃されたとのこと。有料サブスクリプションプランであるMaxおよびTeam Premiumのユーザーにおいては、全体の使用制限が引き上げられ、これまでSonnetで使用していたのとほぼ同等のトークン数をOpusでも利用できるようになります。Anthropicは、「これらの制限緩和はユーザーがOpus 4.5を日常業務で円滑に活用できるようにするための措置」と述べています。

