ソフトウェア

OpenAIがあらゆるウェブサイトでのタスクをAIに依頼できる「Operator」を発表



OpenAIが、ユーザーの指示に従って自動でブラウザを操作するAI「Operator」の研究プレビュー版を発表すると同時に、Operatorのモデルである「Computer-Using Agent(CUA)」についてのデータを公表しました。

Introducing Operator research preview | OpenAI
https://openai.com/index/introducing-operator/


Computer-Using Agent | OpenAI
https://openai.com/index/computer-using-agent/



Operatorのモデルである「Computer-Using Agent(CUA)」は、GPT-4oの思考能力を持ちつつ人間と同じように画面を見てボタンやメニュー、テキストフィールドなどを操作できるように追加のトレーニングが行われています。人間と同じ操作体系を使用するため、各種サービスやアプリ固有のAPIを使用せずにすみ、タスクを柔軟に実行できるというメリットがあります。

今回リリースされた研究プレビュー版のOperatorに使用されているCUAは、コンピューター操作およびブラウザ操作の両方の分野において新たな最先端を確立したとのこと。それぞれの分野における以前の最先端モデルとの比較は以下の通りです。PC操作については人間の72.4%に比べ約34ポイント低い38.1%のスコアしか獲得できませんでしたが、ブラウザ操作では58.1%のスコアを獲得し、人間との差が約20ポイントまで縮みました。

ベンチマークタイプベンチマークコンピュータの使用(ユニバーサルインターフェース)ウェブブラウジングAI人間
OpenAI CUA以前の最先端技術(SOTA)以前の最先端技術(SOTA)
コンピュータ操作OSWorld38.1%22.0%-72.4%
ブラウザ操作WebArena58.1%36.2%57.1%78.2%
WebVoyager87.0%56.0%87.0%-


モデルの仕組みは以下の通り。CUAが「画面の状態を認識」「次の操作を思考」「実行」という3ステップをタスクの完了まで繰り返すようになっています。画面の状態はスクリーンショットとしてコンテキストに追加されるとのこと。


OpenAIのブログでは、複数の例について実際にブラウザ操作タスクをこなすまでの全ステップの様子が詳しく掲載されています。以下は「Cambridge DictionaryのPlusセクションに行って推奨される文法クイズをログインせずに行いスコアを教えてください」というプロンプトの例です。


AIがサイトを開きました。


「Plus」の文字を見つけ、クリックしています。


広告が出現しますが適切に「Close」をクリックできました。


「推奨される文法クイズ」を探すためにスクロール。


「文法クイズ」を発見し、クリックしています。


こうしたステップを合計152回遂行した後、以下の様にスコアを報告してタスク完了となりました。


一方、PC操作タスクは人間よりも大きく劣るものの、以前の最先端モデルであるClaude 3.5 sonnetを大きく上回りました。


今回OpenAIがリリースしたブラウザ自動操作AIエージェントのOperatorは、CUAにブラウザを組み合わせ、プロンプトの指示だけでその後のブラウザ操作を自動で行ってくれるようになっています。ユーザーはAIの操作の途中で操作を引き継ぐ事も可能とのこと。ログインや支払い、CAPTCHAなどユーザーの支援が必要なタスクが出現した場合、ユーザーに依頼するようトレーニングされています。

記事作成時点でOperatorの研究プレビュー版はアメリカ在住かつProプランを契約しているユーザー限定で利用可能となっています。

この記事のタイトルとURLをコピーする

・関連記事
GoogleがAIでChromeを自動操作できる「Project Mariner」を発表 - GIGAZINE

LLMとコンピュータビジョンでブラウザベースのワークフローを自動化できる「Skyvern」を使ってみた、コードと違ってウェブサイトが変わる度に書き直す必要無し - GIGAZINE

「1年以上前に仕事を全自動化したが誰にも話していない」という告白が話題に - GIGAZINE

AIで校正や制作を自動化し納期を約30分の1にして印税を100%還元する自費出版サービス「Spines」が既存の出版業界から反発を受ける - GIGAZINE

OpenAIがブラウザを介して実行される複雑なタスクを自動化するAIエージェント「Operator」をChatGPT向けに開発中で間もなくリリース予定と報じられる - GIGAZINE

in ソフトウェア,   ネットサービス, Posted by log1d_ts

You can read the machine translated English article OpenAI announces 'Operator' that can req….