AnthropicがClaude Opus 4.8を発表、Opus 4.7からのアップグレードでコーディング性能と誠実さの向上を実現

AnthropicがClaude Opus 4.7からのアップグレード版となる「Claude Opus 4.8」を発表しました。Claude Opus 4.8はエージェント型コーディング、複数分野にまたがる推論、コンピューター操作、知識労働、金融分析などで性能が向上しているとのことです。
Introducing Claude Opus 4.8 \ Anthropic
https://www.anthropic.com/news/claude-opus-4-8
Claude Opus 4.8 System Card
(PDFファイル)https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf
Anthropicによると、Claude Opus 4.8はOpus 4.7をベースに各種ベンチマークで改善を加えたモデルで、「より効果的な協力者」として設計されています。性能面では、Opus 4.8はSWE-Bench Proで69.2%を記録し、Opus 4.7の64.3%、GPT-5.5の58.6%、Gemini 3.1 Proの54.2%を上回ったとされています。一方で、Terminal-Bench 2.1ではOpus 4.8が74.6%だったのに対し、GPT-5.5は78.2%で、オンデバイスのコーディング課題ではGPT-5.5が上回っています。
また、Opus 4.8はHumanity's Last Examで49.8%、DRACOで57.9%、OSWorld-Verifiedで83.4%、GPQA-AAで1890、Finance Agent v2で53.9%を記録しています。これらはいずれもOpus 4.7を上回っており、特に実用的な知識作業やエージェント型の作業で改善が示されています。

初期テスターはOpus 4.8について、エージェント的なタスクを実行する際に「より信頼でき、判断が鋭い」と評価しているとのこと。あるテスターは「Claude Codeで複雑な変更を行う前に適切な質問をし、自らのミスを見つけ、不確かな計画には反論する傾向がある」という評価を下しています。
今回の大きな改善点の1つは「誠実さ」です。Anthropicは「Opus 4.8が作業中の不確実性を明示しやすく、裏付けのない主張をしにくくなっており、自分が書いたコードの欠陥を見逃したままにする傾向は前世代モデルの約4分の1になった」と説明しています。

安全性評価では、Opus 4.8はユーザーの自律性を尊重し、ユーザーの利益に沿って行動するような「向社会的」な特性で高い評価を得たとされています。また、欺瞞や悪用への協力といった不整合な挙動はOpus 4.7より少なく、Anthropicが最も整合性が高いモデルと位置付けるClaude Mythos Previewに近い水準だったとされています。
ただし、Opus 4.8はほぼすべての能力評価でOpus 4.7を上回る一方、Anthropicの最も高性能なモデルであるClaude Mythos Previewには及ばず、プロンプトインジェクションなど一部のエージェント環境ではOpus 4.7より堅牢性がやや低い場面もあったと報告されています。
AnthropicはClaude Opus 4.8と同時にClaude Code向けの「dynamic workflows」も研究プレビューとして導入しています。このdynamic workflowsによってClaudeが作業計画を立て、1つのセッション内で数百の並列サブエージェントを動かし、大規模なコードベース移行のような作業を実行してから結果を検証できるようになったとのこと。
さらにClaude.aiとClaude Coworkには「effort control」も追加されました。これはClaudeが回答にどれだけ深く考えるかをユーザーが調整できる機能で、低い設定では応答が速くなり、レート制限の消費も抑えられる一方、高い設定ではより深く考えて品質を高める設計です。
以下は実際にOpus 4.8とClaude Codeで長時間実行タスクを扱うことを見せるデモ動画。Opus 4.8のデフォルトは「high effort」で、Anthropicは品質とユーザー体験のバランスが最も良い設定だとしています。難しいタスクや長時間実行する非同期ワークフローでは「extra」またはClaude Codeで「xhigh」と呼ばれる設定が推奨されており、Claude Codeでは高いeffort設定によるトークン消費に対応するためレート制限も引き上げられています。
Embrace long-running tasks with Opus 4.8 and Claude Code - YouTube

また、開発者向けにMessages APIでmessages配列内にsystem entriesを含められるようになりました。これにより、プロンプトキャッシュを壊したりユーザーターンを経由したりせず、エージェントの実行中に権限、トークン予算、実行環境の文脈などを更新できるようになります。
Claude Opus 4.8の通常利用料金はOpus 4.7と同じで、100万入力トークンあたり5ドル(約800円)、100万出力トークンあたり25ドル(約4000円)です。高速モードは100万入力トークンあたり10ドル(約1600円)、100万出力トークンあたり50ドル(約8000円)で、開発者はClaude APIから「claude-opus-4-8」を利用できます。
・関連記事
Claude Opus 4.7とClaude Opus 4.6でトークン消費量がどれくらい変わったのか比較できるツール「Token Counter」 - GIGAZINE
Claude Opus 4.7でトークン消費量がどれだけ増えたか可視化するサイトが登場、同じ入力で4.6の2倍消費する実例も - GIGAZINE
Claude・ChatGPT・Gemini・Grokの4つのAIモデルにラジオ運営を任せる実験、Claudeは革命を扇動しGeminiは平然と悲劇的な出来事を描写 - GIGAZINE
「安い中華AI+人間」と「OpenAIやAnthropicの高性能AI」はどっちが低コストなのか? - GIGAZINE
AlibabaがAIエージェント向け新モデル「Qwen3.7-Max」を発表、35時間の自律作業と1000回超のツール呼び出しに対応 - GIGAZINE
・関連コンテンツ
You can read the machine translated English article Anthropic announces Claude Opus 4.8, an ….







