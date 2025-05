2025年05月23日 11時30分 ソフトウェア

Anthropicが「Claude 4」ファミリーの2モデルをリリース、コーディング性能と推論能力が前世代から強化



Anthropicが2025年5月22日に開催された自社の開発者向けイベント「Code with Claude」にて、次世代AIモデルである「Claude 4」ファミリーの一部、Claude Opus 4とClaude Sonnet 4を発表しました。両モデルはプログラミングタスクで優れたパフォーマンスを発揮するように調整されており、コードの作成と編集に適しているとのことです。



Claude Opus 4は世界最高レベルのコーディング性能を誇るモデルとして位置づけられており、複雑で長時間にわたるタスクやエージェントワークフローにおいて持続的な高いパフォーマンスを発揮します。Claude Opus 4はSWE-bench Verifiedで72.5%、Terminal-benchで43.2%という優秀なスコアを記録し、数千ステップを要するような集中的な作業を数時間継続して実行できる能力を持っています。Anthropicは、Claude Opus 4がコーディングや複雑な問題解決に特に優れ、最先端のエージェント製品を支える技術として評価されているとアピールしました。



一方、Claude Sonnet 4は前モデルのSonnet 3.7を大幅に改善したもので、SWE-benchにおいて72.7%という最先端のスコアを達成しているとのこと。Claude Sonnet 4は性能と効率性のバランスが重視されており、内部および外部の様々な用途に対応できる実用性を兼ね備えているのが特徴。また、実装に対するより細かな制御を可能にする操縦性も向上しています。





コーディングや推論能力、マルチモーダル機能、エージェントタスクについて、Claude Opus 4とClaude Sonnet 4をさまざまなベンチマークで測定した結果をまとめた表が以下。Claude 4は前世代と比較して、ターミナル操作やコマンドライン作業などのエージェント性能(Agentic tool use)や数学解決の推論能力(High school math competition)のスコアが特に向上しています。





IT系ニュースサイトのTechCrunchは上記のベンチマーク結果を受けて、「モデルのコーディング能力を評価するSWE-bench Verifiedにおいて、Claude Opus 4はGoogleのGemini 2.5 ProやOpenAI o3、GPT-4.1を上回ってはいますが、マルチモーダル評価のMMMUや博士課程レベルの生物学・物理学・化学関連の設問を網羅したGPQA DiamondではOpenAI o3を上回ることができてはいません」と指摘しています。



Claude 4は、即座の応答と深い推論のための拡張思考という2つのモードを持つハイブリッドモデルとして設計されています。特に「ツールの使用を伴う拡張思考」という機能によって、Claudeは推論とウェブ検索などのツール使用を交互に行うことで、より質の高い回答を提供できるようになりました。





従来のAIモデルは質問を受けるとすぐに答えを生成しますが、この拡張思考では、Claudeがより深く複雑な推論を行うために時間をかけて「考える」プロセスを経ることができます。人間が難しい問題に直面した時に、一度立ち止まってじっくりと考えを整理するのと似ています。



「ツールの使用を伴う拡張思考」は、推論の途中でウェブ検索などのツールを使用できます。つまり、考えながら必要な情報を調べ、その情報をもとにまた考えを深めるという、より人間らしい問題解決のアプローチが可能になっているというわけです。この機能により、Claude 4は複雑な質問や多段階の推論が必要な問題に対して、より質の高い回答を提供できるようになったとのこと。



さらに、Claude 4は複数のツールを同時並行で使用できるようになりました。これまでは一つずつツールを順番に使用していましたが、この改善により効率的で迅速な作業が可能になります。また、指示への従順性が大幅に向上しており、従来のモデルと比較して、タスク完了時にショートカットや抜け道を使用する行動が65%減少しています。



加えて、メモリ機能が大幅に向上。開発者がローカルファイルへのアクセスを提供した場合、Claudeは重要な事実を抽出し保存することで継続性を維持し、時間の経過とともに知識を構築できるようになりました。特にClaude Opus 4では、このメモリ機能が劇的に改善されており、「メモリファイル」を作成・維持することで重要な情報を保存する技術に長けているとのこと。これにより、長期的なタスクの認識、一貫性の維持、エージェントタスクでの性能向上が実現されています。



AnthropicはClaudeに「ポケットモンスター 赤/緑」をプレイさせるベンチマークを行っており、Claude Opus 4が以下のようにポケモンをプレイしながらメモをとり、自分のゲームプレイの改善に努めていたと報告しています。





価格設定については、従来のOpusおよびSonnetモデルと同等で、Claude Opus 4は入力100万トークンあたり15ドル(約2200円)、出力100万トークンあたり75ドル(1万円)、Claude Sonnet 4は入力100万トークンあたり3ドル(約431円)、出力100万トークンあたり15ドルとなっています。これらのモデルはAnthropicのAPI、Amazon Bedrock、Google Cloud Vertex AIで利用可能です。また、Claude Opus 4とClaude Sonnet 4はウェブ版・iOS版・Android版のClaudeアプリで利用可能。Claude Opus 4は有料プランであればアクセス可能で、Claude Sonnet 4は無料プランでも利用できます。ただし、Claude 4はClaude 3.7よりも入力制限が厳しくなっている模様。





また、AnthropicはClaude 4の発表と共に、これまで研究プレビューとして提供していたClaude Codeの一般提供を開始したことを明らかにしました。



Claude Codeの中核となる機能として、VS CodeとJetBrainsのIDE向けの新しいベータ拡張機能が提供されます。これにより、Claudeが提案する編集内容がファイル内にインラインで表示され、使い慣れたエディタ内でのレビューと追跡が効率化されます。インストールも簡単で、IDEのターミナルでClaude Codeを実行するだけで完了するとのこと。さらに以下のムービーのように、GitHub Actionsを通じたバックグラウンドタスクのサポートも追加されました。



加えて、拡張可能なClaude Code SDKも提供され、開発者は同じコアエージェントを使用して独自のエージェントやアプリケーションを構築できるようになります。



そして、Anthropic APIにも4つの新機能がリリースされました。コード実行ツール、MCPコネクタ、Files API、そしてプロンプトを最大1時間キャッシュする機能です。これらにより、開発者はより強力なAIエージェントを構築できるようになります。



1つ目は「コード実行ツール」で、これによりClaudeはサンドボックス環境でPythonコードを実行し、計算結果やデータの可視化を生成できるようになりました。APIコール内で直接データセットの読み込み、探索的チャートの作成、パターンの特定、実行結果に基づく出力の反復的な改良などが可能になります。



コード実行ツールは金融モデリング、科学計算、ビジネスインテリジェンス、ドキュメント処理、統計分析などの用途に適しているとのことで、組織は1日あたり50時間の無料使用枠を持ち、追加使用には1時間あたり0.05(約70円)ドルが課金されます。



2つ目の機能はMCPコネクタです。これにより開発者はクライアントコードを書くことなく、ClaudeをMCPサーバーに接続できるようになりました。以前はMCP接続を処理するためのクライアントハーネスの構築が必要でしたが、AnthropicのAPIが接続管理、ツール検出、エラー処理をすべて自動的に処理するようになります。ZapierやAsanaなど、既存のMCPサーバーとの統合も可能です。



3つ目の機能はFiles APIで、Claudeのドキュメントの保存とアクセス方法が簡素化されます。Files APIはコード実行ツールとも統合され、Claudeがコード実行中にアップロードされたファイルに直接アクセスして処理したり、レスポンスの一部としてチャートやグラフなどのファイルを生成したりできるようになります。



4つ目の機能は拡張プロンプトキャッシングです。開発者は標準の5分間のTTL(Time To Live)か、追加コストで1時間のTTLを選択できるようになりました。拡張キャッシングにより、顧客は広範な背景知識と例をClaudeに提供しながら、長いプロンプトのコストを最大90%、レイテンシーを最大85%削減できます。これにより、マルチステップのワークフローを処理したり、複雑な文書を分析したり、他のシステムと連携したりする場合など、エージェントが長時間にわたってコンテキストを維持することが実用的になります。



これらの機能はすべてAnthropic APIのパブリックベータ版で利用可能になっています。



