ソフトウェア

「Claude 3.7 Sonnet」と「Claude Code」が登場、OpenAI o1やDeepSeek-R1を超える性能で「ポケモン」のジムリーダーを3人倒すことに成功


Anthropicが「Claude 3.7 Sonnet」を発表しました。Anthropicによれば、Claude 3.7 Sonnetは「市場初のハイブリッド推論モデル」で、ベンチマークではOpenAIのo1やo3-mini、DeepSeek-R1を超える性能を見せたとのことです。

Claude 3.7 Sonnet and Claude Code \ Anthropic
https://www.anthropic.com/news/claude-3-7-sonnet

Claude's extended thinking \ Anthropic
https://www.anthropic.com/research/visible-extended-thinking

Anthropicのいう「ハイブリッド推論モデル」とは、質問に対してすぐに答える「リアルタイムの回答」と、より推論を重ねた「熟考された回答」の両方を提供できるモデルという意味です。ユーザーはAIモデルの推論機能をアクティブにするかどうかを選択でき、Claude 3.7 Sonnetに瞬時に答えさせるか熟考させるかを選ぶことができるようになります。


具体的には、Normal(標準)モードとExtended(拡張)の2種類が用意されています。NormalモードはClaude 3.5 Sonnetのアップグレード版になります。Extendedモードは、回答前に推論を反復させるため、数学や物理学の問題解決、コーディングなど複雑なタスクでのパフォーマンスが向上するとのこと。


また、APIを介してClaude 3.7 Sonnetを使用する場合、トークン値を指定することが可能になり、速度とコスト、求める回答の品質に応じてユーザーが自由に調整できるようになります。

さらに、推論モデルの開発において、数学やコンピュータサイエンスの競技問題に対する最適化を少し抑え、その代わりに企業が実際にLLMを使用する状況をよりよく反映する現実世界のタスクに重点を移したとAnthropicは述べています。

SWE-bench Verifiedを用いたソフトウェアエンジニアリングのベンチマーク結果を比較したものが以下。Claude 3.7 Sonnet(一番左)は、Claude 3.5 Sonnet(2024年10月モデル)やOpenAIのo1、o3-mini、DeepSeek-R1と比べても高い精度を記録しています。


会話型AIエージェントのより現実的なタスクにおけるパフォーマンスを評価するTAU-benchのベンチマークでは小売(Retail)と航空会社(Airline)の両方で、Claude 3.7 SonnetはClaude 3.5 SonnetとOpenAI o1を上回りました。


その他のベンチマーク結果については以下の通り。枠で囲われているうち、左側はClaude 3.7 SonnetのExtendedモード、右側がNormalモードの結果です。


さらに、AnthropicはClaude 3.7 Sonnetのエージェント性能を計測するため、ゲームボーイの「ポケットモンスター 赤」をプレイさせるベンチマークを行っています。

このベンチマークは、AIモデルに画面認識と基本的な操作を行えるようにして、ポケモンをプレイできるようにしてどこまで攻略できるかを調査するというもの。Claude 3.7 Sonnetは、最大でクチバシティに到着し、ジムリーダーのマチス(Surge)を倒すまで進めることに成功したとのこと。


記事作成時点では、Claude 3.7 Sonnetが3つのジムバッジをゲットするまでにどれだけの計算が必要だったのか、またそれぞれにどれだけの時間がかかったのかは不明です。ただし、Anthropicは「最後のジムリーダーであるマチスに到達するまで、Claude 3.7 Sonnetが3万5000回のアクションを実行しました」と報告しています。

また、Anthropicは研究プレビューとして、AIエージェント搭載のコーディングツール「Claude Code」をリリースしました。

Claude Code overview - Anthropic
https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview

Claude Codeはコードの検索や読み取り、ファイルの編集、テストの作成と実行、GitHubへのコミットやプッシュ、コマンドラインツールの使用などが可能なツールとなっています。


Claude Codeはあくまでも開発中ですが、Anthropicは「すでに私たちのチームにとって、デバッグやリファクタリングに欠かせないものとなっています」と述べています。通常の手作業で45分以上かかるタスクを1回のパスで完了し、開発時間やオーバーヘッドが削減されたとのこと。Anthropicの使用状況に基づき、Claude Codeは今後も継続的に改善されていく予定となっています。

Anthropicは「Claude 3.7 SonnetとClaude Codeは、人間の能力を真に強化できるAIシステムに向けて踏み出す重要な一歩となります。深く推論し、自律的に作業し、効果的に協力する能力により、AIは人間の達成できるものを豊かにし、私たちはより拡張された未来に近づくのです」と述べました。

なお、Claude 3.7 Sonnetは、Free、Pro、Team、Enterpriseを含むすべてのプラン、およびAnthropic API、Amazon Bedrock、Google CloudのVertex AIで利用可能。さらにExtendedモードはClaudeのすべての有料プランで利用可能。また、API利用の場合、価格は入力トークン100万あたり3ドル(約450円)、出力トークン100万個あたり15ドル(約2250円)となっています。

・つづき
Claude 3.7 Sonnetにポケモンをプレイさせる「ClaudePlaysPokemon」をAnthropicがTwitchで配信開始、推論しながらの超ゆっくりプレイを皆が見守る - GIGAZINE

この記事のタイトルとURLをコピーする

・関連記事
OpenAIがあらゆるウェブサイトでのタスクをAIに依頼できる「Operator」を発表 - GIGAZINE

「Grok-3」がリリースされる、GPT-4oやGemini 2.0 Proと比べて圧倒的に高性能とxAIはアピール - GIGAZINE

DeepSeek-R1がオープンソースでなければならなかった理由、そしてなぜOpenAIを倒せないのか - GIGAZINE

AIに対するジェイルブレイク攻撃を95%回避できる技術をAnthropicが開発 - GIGAZINE

AIはチェスで負けそうになるとチートする - GIGAZINE

in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article 'Claude 3.7 Sonnet' and 'Claude Code' ha….