AnthropicがClaude Opus 4.6を発表、コーディングだけでなく財務処理や文書作成の性能も向上&最大100万トークンのコンテキストウィンドウに対応

Anthropicが、同社にとって最も高性能なAIモデルの直接的なアップグレード版となる「Claude Opus 4.6」を発表しました。この新モデルの投入により、同社はOpus 4.6を単なる次期モデルとしてではなく、開発者向けのClaude Codeに加えて、非技術職も含む業務全体へ食い込むための製品群とセットで打ち出す動きを見せています。
Claude Opus 4.6 \ Anthropic
https://www.anthropic.com/news/claude-opus-4-6
System Card:Claude Opus 4.6
(PDFファイル)https://www-cdn.anthropic.com/0dd865075ad3132672ee0ab40b05a53f14cf5288.pdf
Advancing finance with Claude Opus 4.6 | Claude
https://claude.com/blog/opus-4-6-finance
Building a C compiler with a team of parallel Claudes \ Anthropic
https://www.anthropic.com/engineering/building-c-compiler
Claude Opus 4.6は前世代モデルから、長い作業を途中で崩さずに進める方向で強化されたモデルで、より丁寧に計画を立てられるようになり、エージェント的な長時間タスクをより長く維持でき、大規模なコードベースでも安定して動きやすくなったとのこと。さらに、コードレビューやデバッグも改善し、自分のミスを見つけて修正する力が上がったとAnthropicは説明しています。
加えて、コーディングのみならず財務分析や調査、文書、スプレッドシート、プレゼンテーションの作成といった日常業務に関する性能も改善され、最初の出力からより整った成果物になりやすくなっているとのこと。
Claude for everyday work - YouTube

また、Opus 4.6はOpusクラスのモデルとして初めて100万トークンのコンテキストウィンドウがベータ版として導入され、大規模なコードベースや膨大な文書群を扱う能力が飛躍的に向上しました。さらにタスクの難易度に合わせて推論の深さを調整するアダプティブシンキング機能が追加されたことで、複雑なマルチステップの課題に対しても、人間による修正をほとんど必要としない完成度の高い成果物を初回から出力できるようになっています。
性能評価においても、Opus 4.6は業界をリードする数々の記録を打ち立てたとAnthropicはアピール。経済的に価値のあるナレッジワークの能力を測定するベンチマーク「GDPval-AA」では、前世代モデルの1416 Eloから190ポイントも上昇した1606 Eloという驚異的なスコアを達成しました。

また、エージェントによるコーディング能力を測るTerminal-Bench 2.0において最高得点を記録したほか、学際的な高度な推論を必要とするHumanity's Last Examでも他のフロンティアモデルを上回る成績を収めています。これらの結果は、単なる知識量だけでなく、現実世界の複雑なワークフローを完遂する実戦的な能力が大幅に強化されたことを裏付けているとAnthropicは主張しました。
金融分野への特化もOpus 4.6の大きな特徴です。
Claude Opus 4.6 for finance - YouTube

投資や財務分析の約50のユースケースを対象としたAnthropic独自の評価指標であるReal-World Financeにおいて、前モデルの58.4%を上回る64.1%の正答率を記録しました。これにより、財務モデルの構築やスライド資料の作成、複雑な契約書のレビューといったタスクをより正確にこなせるようになっています。

特にExcelとの連携では、計算モデルが複雑化しても精度を落とさず長時間タスクに集中できる能力が備わっており、新たに研究プレビューとして公開されたPowerPoint向け機能と合わせることで、金融アナリストの業務効率を劇的に改善することが期待されています。

そして、AIによる自律的なソフトウェア開発の可能性を実証するプロジェクトとして、「エージェントチーム」という手法を用いた実験結果が公開されました。
Asynchronous software development with a team of Claudes - YouTube

Anthropicが16のOpus 4.6インスタンスを並列に動作させ、人間が詳細な指示を与えずに共同作業を行わせたところ、Rust言語を用いて10万行規模のCコンパイラをゼロから構築することに成功したとのこと。ムービーではこのCコンパイラを使って「DOOM」を動作させることに成功しています。

このコンパイラは実際にx86、ARM、RISC-V上でLinux 6.9をビルド可能な性能を有しており、約2000回のセッションを通じて自律的に開発が進められました。この一連のプロセスに投じられたAPIコストは2万ドル(約300万円)にのぼり、将来的にAIが大規模なコードベースを自律的に維持、管理できる可能性を示唆しています。
Claude Opus 4.6は、ビジネスユーザーおよび個人ユーザー向けに幅広く提供が開始されており、有料のPro、Max、Team、Enterpriseの各ユーザーがアクセス可能です。APIの価格体系は前世代のOpus 4.5から据え置かれており、100万トークンあたりの料金は入力が5ドル(約750円)、出力が25ドル(約3750円)となっています。
ただし、100万トークンの広大なコンテキストウィンドウを活かした大規模な処理を行う場合、20万トークンを超える入力については割増料金が適用され、入力が10ドル(約1500円)、出力が37.5ドル(約5630円)となります。
また、Opus 4.6は安全性についてもAI安全性レベル3(ASL-3)という高い基準を維持しており、高度な知能と安全な運用の両立が図られています。
・関連記事
AI企業のAnthropicが「広告入りのAIはこんなひどいことになる」というスーパーボウルCMを公開、OpenAIのサム・アルトマンが長文反応 - GIGAZINE
「Claude Code Opus 4.5」が劣化している - GIGAZINE
生成AI「Claude」によって1996年のウェブサイト「Space Jam」を再現する試み - GIGAZINE
Claude 4.5 Opusの「魂の概要」とは何か? - GIGAZINE
・関連コンテンツ
You can read the machine translated English article Anthropic releases Claude Opus 4.6, impr….







