チャットAI「Claude」にPCを自動操作する機能が追加される&「Claude 3.5 Sonnet」の性能向上版と軽量モデル「Claude 3.5 Haiku」も登場
AI企業のAnthropicがAIモデル「Claude 3.5 Sonnet」の性能強化版と、軽量かつ高性能な新モデル「Claude 3.5 Haiku」を発表しました。同時に、ClaudeにPCを操作させられる「computer use」という機能のパブリックベータテストも始まっています。
Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku \ Anthropic
https://www.anthropic.com/news/3-5-models-and-computer-use
Developing a computer use model \ Anthropic
https://www.anthropic.com/research/developing-computer-use
◆Claude 3.5 Sonnetの性能向上版
Claude 3.5 Sonnetの性能向上版は従来版と比べてあらゆる面で性能が向上しており、数学性能を除くほとんどのテストでGPT-4oやGemini 1.5 Proといった競合モデルを超える性能を示しています。また、表には記載されていませんが、コーディング能力ではOpenAI o1を上回る性能を示したそうです。
◆Claude 3.5 Haiku
Claude 3.5 Haikuはシステム負荷の低さと性能の高さを両立したモデルで、前世代モデルのClaude 3 Haikuを大きく超える性能を有しています。また、Claude 3.5 Haikuはコーディング能力の高さも特徴としています。
◆PC操作機能「computer use」
「computer use」は、ユーザーの指示に従ってクリック操作やキーボード入力を実行する機能です。ユーザーは「日の出を観察するための計画を立てて」といったようにタスクの内容を指示するだけでOKで、使用するアプリを指定する必要はありません。
例えば、以下の動画ではClaudeに「日の出の観察スポットを検索し、観察スポットまでの移動時間を調べ、カレンダーに予定を記入する」という操作を実行させています。
Claude | Computer use for orchestrating tasks - YouTube
Claudeに「友達がサンフランシスコに来るので、ゴールデンゲートブリッジから日の出を観察したい。出発地点はパシフィックハイツ。いい感じの観察スポットを探し、日の出の時間と観察スポットまでの移動時間を調べ、日の出に間に合うようにカレンダーに登録して」と入力。
すると、Claudeが「Chromeを起動してGoogleで『ゴールデンゲートブリッジの日の出観察スポット』を検索」という操作を実行します。
さらに、マップアプリを開いて「Google検索で見つけた観察スポットまでの移動時間」を調査。
最後にカレンダーアプリを開いて日の出観察予定を登録しました。予定のメモ欄には出発時刻や目的地などが記載されています。
また、ClaudeはPC内でウェブアプリにアクセスして操作を実行することも可能。以下の例では「ClaudeがClaudeにアクセスしてウェブサイトのコードを生成する」という様子を確認できます。
Claude | Computer use for coding - YouTube
なお、「computer use」は記事作成時点ではパブリックベータ版という扱いで、不自然な動作をすることも多々あるとのこと。Anthropicは「『computer use』の性能は、今後数カ月以内に急速に向上すると期待している」と述べています。
◆フォーラム開設中
本記事に関連するフォーラムをGIGAZINE公式Discordサーバーに設置しました。誰でも自由に書き込めるので、どしどしコメントしてください!Discordアカウントを持っていない場合は、アカウント作成手順解説記事を参考にアカウントを作成してみてください!
• Discord | "「PCを操作できるAI」にどんな操作をお願いしたい?" | GIGAZINE(ギガジン)
https://discord.com/channels/1037961069903216680/1298573269913440276
・関連記事
AnthropicがClaude 3.5 Sonnetを突如発表、ベンチマーク結果はGPT-4oに匹敵 - GIGAZINE
Anthropicが対話型生成AI「Claude」各モデルのシステムプロンプトの変更ログを公開、大手AIベンダーとしては初 - GIGAZINE
OpenAIが複雑な推論能力をもつAIモデル「OpenAI o1」と「OpenAI o1-mini」を発表、プログラミングや数学で高い能力を発揮 - GIGAZINE
「Gemini 1.5 Flash」「Gemini 1.5 Pro」の更新版リリース、数学性能や視覚理解性能が向上してProの価格は大幅値下げ - GIGAZINE
Metaが「Llama 3.2」を公開、画像認識性能が向上&スマホ特化の小型版もあり - GIGAZINE
・関連コンテンツ