ソフトウェア

AnthropicがClaude 3.5 Sonnetを突如発表、ベンチマーク結果はGPT-4oに匹敵


チャットボットAI「Claude」を開発するAnthropicが新モデルとなる「Claude 3.5 Sonnet」を2024年6月21日に発表しました。これは今後リリースされるClaude 3.5ファミリーの最初となるモデルで、ベンチマーク結果はOpenAIのGPT-4oに匹敵するとのことです。

Introducing Claude 3.5 Sonnet \ Anthropic
https://www.anthropic.com/news/claude-3-5-sonnet

Anthropicによると、Claude 3.5 Sonnetは大学院レベルの推論力、大学学部レベルの知識とコーディング能力を持つとのこと。Claude 3 Opusなど従来のClaudeモデルと比較し、ニュアンスやユーモア、複雑な指示を理解する能力が著しく向上し、自然で親しみやすい口調で高品質のコンテンツを書く能力に優れているとAnthropicはアピールしています。


Claude 3.5 SonnetはClaude 3 Opusと比較してパフォーマンスとコスト効率が向上しており、Claude 3.5 Sonnetの動作速度はClaude 3 Opusの2倍に匹敵するとのこと。また、エージェントコーディング評価では、Claude 3.5 Sonnetは問題の64%を解決し、38%を解決したClaude 3 Opusを上回ったそうです。

Anthropicの公開したベンチマーク結果を見ると、Claude 3.5 Sonnetは8項目のうち、「推論(GPQA)」「知識(MMLU)」「コーディング(HumanEval)」「数学問題の翻訳(MGSM)」「テキスト推論(DROP)」の5項目で、GPT-4oと同等かそれ以上の結果を出しています。


そして、Anthropicは「Claude 3.5 Sonnetはこれまでで最も強力なビジョンモデルであり、標準的なビジョンベンチマークでClaude 3 Opusを上回りました」と述べ、チャートやグラフの解釈など、視覚的な推論を必要とするタスクで特に性能が向上しており、不完全な画像からテキストを正確に書き起こすこともできるとアピールしました。Anthropicは、実際にClaude 3.5 Sonnetが視覚タスクをこなすムービーを公開しています。

Claude 3.5 Sonnet for vision - YouTube


視覚的推論に関するベンチマークの結果を、Claude 3 Opus・GPT-4o・Gemini 1.5 Proと比較した表が以下。


さらに、AnthropicはClaude.aiに「Artifacts」という新機能を実装したことを発表しました。ArtifactsはClaudeにコードやテキストドキュメント、ウェブサイトデザインなどのコンテンツを生成するように依頼した時に、回答の中ではなく専用ウィンドウにコンテンツを表示する機能。Artifactsについては、以下のムービーを見るとどういう機能なのかが一発でわかります。

Claude 3.5 Sonnet for sparking creativity - YouTube


安全性とプライバシーについては、Antropicはイギリスの人工知能安全研究所(UK AISI)にClaude 3.5 Sonnetの安全性評価を依頼し、導入前に改良を重ねていたとのこと。また、外部の専門家からのポリシーフィードバックを統合することで、Claude 3.5 Sonnetはさまざまな不正使用に対処できるとAnthropicはアピールしています。


Claude 3.5 SonnetはClaude.aiおよびClaudeのiOSアプリで無料で利用可能。有料プランであるClaude ProおよびTeamの加入者であれば、より高いレート制限でアクセス可能です。また、Anthropic API、Amazon Bedrock、Google CloudのVertex AIからも利用可能で、料金は入力トークン100万個当たり3ドル(約477円)、出力トークン100万個あたり15ドル(約2390円)となっています。

Anthropicは、今後もClaude 3.5モデルの知性・速度・コストの改善を続け、2024年後半にClaude 3.5 HaikuとClaude 3.5 Opusをリリースする予定だとしています。

この記事のタイトルとURLをコピーする

・関連記事
ついにチャットAI「Claude」のiOSアプリをAI開発企業のAnthropicがリリース - GIGAZINE

AnthropicがAIの安全性とセキュリティ強化のためにOpenAIの元研究者を採用して「スーパーアライメントチーム」を新設 - GIGAZINE

「人類に壊滅的なリスクをもたらすAI」を安全に提供するためにAnthropicが既存ポリシーの反省点を公開 - GIGAZINE

IQ100超えを達成したAIモデルのClaude 3は「いい性格」を持つようにトレーニングされている - GIGAZINE

無料かつ匿名でブラウザからChatGPTやClaude 3などのAIが使える「AI Chat」をDuckDuckGoがリリースしたので使ってみた - GIGAZINE

ChatGPT、Claude、Perplexityという3つの競合AIが同時にシステム障害を起こし利用不可に - GIGAZINE

in ソフトウェア,   ネットサービス,   動画, Posted by log1i_yk

You can read the machine translated English article here.