ソフトウェア

AIツールの次のレベル「AIエージェント」とは何なのか専門家が解説


近年急速に発達しているAIの分野として、自然な会話や文章の生成ができるChatGPTのようなチャットボットや、テキストを入力するだけで高度な画像やイラストを生成できる画像生成AIを思い浮かべる人は多いはず。そんな中、OpenAIやGoogleなどの大手テクノロジー企業は、AIのさらなる発展の波として「AIエージェント」の計画を発表しています。今後のAIの鍵を握るAIエージェントとはどのようなものなのか、アメリカのクイニピアック大学でコンピュータサイエンスを専門とするブライアン・オニール氏が解説しています。

What is an AI agent? A computer scientist explains the next wave of artificial intelligence tools
https://theconversation.com/what-is-an-ai-agent-a-computer-scientist-explains-the-next-wave-of-artificial-intelligence-tools-242586

OpenAIは2024年11月に、ユーザーの代わりに複数ステップのタスクを行う「自律型AIエージェント」となる「オペレーター」について発表しました。OpenAIのサム・アルトマンCEOは「次の大きなブレークスルーはエージェントだ」と発言しており、AIの新しい大きな転換点だと考えられています。報道によると、「オペレーター」は2025年1月に研究プレビューとしてリリースされる見込みとのこと。

OpenAIが人間に代わってPCを操作するAIエージェント「オペレーター」を2025年1月に公開する予定との報道 - GIGAZINE


また、Googleも「AIエージェント」の開発に力を入れています。Googleは2024年12月11日に発表したAIモデル「Gemini 2.0」を使って、「ゲーム内で何をすべきか」をAIにリアルタイムで尋ねられる機能を開発中であることを明かしました。Google DeepMindのデミス・ハサビスCEOとコレイ・カブクチュオグルCTOは「Gemini 2.0を使ったこのAIエージェントは、画面上のアクションのみに基づいてゲームについて推論し、次に何をすべきか提案することができます。AIエージェントは仮想的なゲームの仲間として機能するだけでなく、Google検索を利用することでウェブ上の豊富なゲーム知識とつながることも可能です」とアピールしています。

Googleが「クラッシュ・オブ・クラン」などのゲームのルールや攻略情報を教えてくれるGemini 2.0ベースのAIエージェントをテストしていると発表 - GIGAZINE


すでに身近にあるシンプルなAIエージェントとしては、Googleメールで受け取ったメッセージに応じて返信内容を提案してくれる機能が挙げられます。また、目的地や日程などを回答するだけで航空券やホテルの予約を提案してくれるサービスなども、AIエージェントが活躍する分野です。

オニール氏はAIエージェントについて、「特定の環境について多くのことを学習し、人間からの簡単なプロンプトがいくつか入力されるだけで、その環境内で問題を解決したり、特定のタスクを実行したりできる技術ツール」と定義しました。オニール氏によると、床やカーペットの形状を学習してその情報に基づいて行動するロボット掃除機は、AIエージェントの先駆けと言えるそうです。ただし、ロボット掃除機は床を掃除するという単一の目標を持つ「目標ベース」のエージェントであり、必要な手段を駆使して目標を達成することだけを目的とするため、単純な意志決定によるものです。

一方で、今日のAIエージェントは「ユーティリティベース」で作成されています。ユーティリティベースのエージェントは、目標を達成することだけではなく、目標を達成する方法をより重視しています。どのようなアプローチにどんなリスクとメリットがあるか、矛盾する複数の目標はどちらがより重要かなど複雑な判断をすることもできるため、ユーザーの好みに合わせたタスクの解決を実行できます。


基本的なチャットボットやロボット掃除機などのシステムもAIエージェントの一種とは言えますが、テクノロジー企業がAIエージェントについて言及する場合、今後はユーティリティベースを基準にした言及になるとオニール氏は指摘しました。入力した単語を認識して単純な応答をするチャットボットとは異なり、AIエージェントは大幅に進歩した回答をすることが可能で、「使用する人々や企業に代わって」アクションを実行する能力が求められます。

単に特定のタスクを実行し続けるだけではなく、人間や企業に代わって活躍できるAIエージェントが発展した場合、「人間の仕事を奪ってしまうのではないか」という懸念が発生します。オニール氏は「人間の仕事を侵食するかどうかは、AIエージェントが割り当てられたタスク以外の新たな課題や予期しない障害が発生した時に、それを乗り越える能力を備えているとテクノロジー企業が証明できるかどうかにかかっています」と指摘しています。また、特定のタスク以外も任せる場合、AIエージェントに機密性の高いデータへのアクセスを許可できるかどうかという点も重要になります。

Googleが2024年12月11日に発表した「Project Mariner」は、AIがブラウザ上の情報を理解してChromeを自動操作することができます。たとえば、新しいPCを購入したいと考えていた場合に、オススメのPCやそれに合う周辺機器などをAIが検索して提案してくれますが、AIエージェントは最終的な購入を実行したりサイトの利用規約に同意したりすることはできません。Googleが設計しているように、AIエージェントに委ねる分野でも最終的に決定を下す権利はユーザーに残すことで、リスクやAIのバイアスを軽減できるとオニールは述べています。

この記事のタイトルとURLをコピーする

・関連記事
「マインクラフト」で最大1000人のAIエージェントが共同生活する社会実験で宗教や文化的ミームが広まったと判明 - GIGAZINE

Googleが「クラッシュ・オブ・クラン」などのゲームのルールや攻略情報を教えてくれるGemini 2.0ベースのAIエージェントをテストしていると発表 - GIGAZINE

GoogleがAIでChromeを自動操作できる「Project Mariner」を発表 - GIGAZINE

Googleが「Gemini 2.0」を発表、高速な軽量モデルで前世代上位モデルを圧倒的に上回る性能 - GIGAZINE

人間のようにマウスやキーボードを操作してゲームをプレイできるAIフレームワーク「Cradle」が開発される - GIGAZINE

in ソフトウェア,   サイエンス, Posted by log1e_dh

You can read the machine translated English article here.