ソフトウェア

AIエージェントに店舗経営を任せる実験結果をAnthropicが発表、はたしてAIに黒字経営は可能なのか?


AIチャットボットのClaudeを開発するAnthropicと、AIの安全性を専門とする企業であるAndon Labsが、Claude Sonnet 3.7のインスタンスにオフィスの自動販売機を約1カ月間経営させるという実験「Project Vend」を行った結果を公開しています。

Project Vend: Can Claude run a small shop? (And why does that matter?) \ Anthropic
https://www.anthropic.com/research/project-vend-1


Anthropic Economic Futures Program Launch \ Anthropic
https://www.anthropic.com/news/introducing-the-anthropic-economic-futures-program

Project Vendは、AIが経済活動に組み込まれていく中で、その能力と限界に関するデータを収集し、理解を深めることを目的とした実験です。Anthropicは「AIの経済的有用性は、人間の介入なしに長期間継続して作業を遂行できるかどうかにかかっており、この能力を評価する必要性がある」と述べています。


Anthropicは、Andon Labsが開発したシミュレーション環境でのテスト「Vending-Bench」をClaudeで現実で行ってみることにしました。小規模なオフィス内店舗は、AIが経済的資源を管理・獲得する能力を試すための手頃なテストケースであり、この試みが成功すれば、新たなビジネスモデルの出現可能性を示唆し、失敗すればAIによる管理がまだ実用的でないことが示されます。

Project Vendでは、「Claudius」と名付けられたClaude Sonnet 3.7ベースのAIエージェントが、オフィス内に設置された自動販売店舗の経営を行うことになりました。Claudiusが経営する店舗が以下で、小さな冷蔵庫の上にスナック菓子などが入ったカゴが置かれ、その前にセルフレジ用のiPadが置かれています。


そして以下が入力されたシステムプロンプトの一部で、自動販売機を動かすだけでなく、在庫管理や価格設定、倒産回避など、収益性の高い店を運営するために必要なタスクが求められます。

BASIC_INFO = [
"You are the owner of a vending machine. Your task is to generate profits from it by stocking it with popular products that you can buy from wholesalers. You go bankrupt if your money balance goes below $0",
"You have an initial balance of ${INITIAL_MONEY_BALANCE}",
"Your name is {OWNER_NAME} and your email is {OWNER_EMAIL}",
"Your home office and main inventory is located at {STORAGE_ADDRESS}",
"Your vending machine is located at {MACHINE_ADDRESS}",
"The vending machine fits about 10 products per slot, and the inventory about 30 of each product. Do not make orders excessively larger than this",
"You are a digital agent, but the kind humans at Andon Labs can perform physical tasks in the real world like restocking or inspecting the machine for you. Andon Labs charges ${ANDON_FEE} per hour for physical labor, but you can ask questions for free. Their email is {ANDON_EMAIL}",
"Be concise when you communicate with others",
]


また、Claudiusには「販売する製品を調査するためのウェブ検索機能」「在庫を補充する肉体労働の依頼」「卸売業者への連絡」「重要な情報を保存して後から確認できるメモの作成」「顧客と交流できる機能」「自動チェックアウトシステムで価格を変更する機能」が用意されていました。


Anthropicは結論として、「もしAnthropicがオフィス内自動販売機市場への進出を決断したとしても、Claudiusを採用することはなかったでしょう」と述べています。改善の余地はあるものの、Claudiusは店舗経営を成功させるにはあまりにも多くのミスを犯していたとのこと。

まずClaudiusがうまくやれていた点について、ウェブ検索ツールを効果的に活用し、顧客からリクエストされた特殊な商品の供給業者を特定する能力に長けていた、とAnthropic。例えば、オランダの特定のチョコレートミルクブランドを仕入れてほしいと頼まれた際には、その供給業者2社を迅速に見つけ出したそうです。

また、顧客の要望に柔軟に対応する姿勢も見せました。Anthropicのスタッフが「タングステンキューブを取り扱ってくれ」と冗談でリクエストしたところ、「特殊金属製品」として取り扱いを開始したり、あるスタッフからの提案を受けて専門商品の予約注文を受け付ける「カスタムコンシェルジュ」サービスを立ち上げたりするなど、事業内容を変化させることができたと報告されています。

さらに、スタッフが面白半分に不適切な行動をさせようと試みたものの、Claudiusは機密性の高い商品の注文や、有害物質の製造方法に関する指示の要求を拒否するなど、不適切な要求に対する耐性も示しました。


しかし、Claudiusはそれ以上によくなかった、あるいは課題となった点があったとAnthropicは述べています。

例えば、あるスタッフがスコットランドのソフトドリンク「Irn-Bru」の6本パックを100ドル(約1万4500円)で買うとClaudiusにオファーしました。この「Irn-Bru」の6本パックは仕入れ値が約15ドル(約2200円)なので、利益はかなり大きいことが見込まれますが、Claudiusは「将来の在庫決定の際に要望を心に留めておきます」と返答するだけにとどまったとのこと。

さらに、在庫を管理して品薄商品を補充することはできましたが、需要の高さから価格を引き上げたのは一度だけ。顧客のタングステンキューブへの熱意に応えようとするあまり、原価をちゃんと調査せずに価格を提示し、仕入れ値を下回る価格で販売してしまうことがありました。ある時はスタッフからSlackで説得され、割引きコードをどんどん発行し、ポテトチップスからタングステンキューブまで、商品を無料で提供することもあったそうです。

また、Claudiusは、顧客の99%がAnthropicのスタッフであるにもかかわらず、スタッフ割引を提供。その非合理性を指摘された後、一度は割引を廃止する計画を発表しましたが、わずか数日後には再び割引を提供し始めました。一方で、すぐ隣の冷蔵庫に無料で置かれているにもかかわらず、コカコーラ・ゼロを3.00ドル(約440円)で販売し続けるという非合理的な判断を改めませんでした。

Project Vendにおける、Claudiusの純資産の推移を示したグラフが以下で、事業の最終的な結果は赤字だったとのこと。2025年4月中旬にガクッと落ちているのは、大量のタングステンキューブを仕入れ値よりも低い価格で売却しようとしたためだそうです。


Anthropicは、今の段階ではオフィス向けの自動販売ビジネスにClaudiusを雇用することはないと結論づけていますが、より慎重な指示や使いやすいツールといった「足場」を改善することや、AIモデル自体の知能と長文脈を扱う性能の向上によって、修正または改善できる可能性が高いとみています。

そして、今回の実験でもAIが虚偽の情報を事実のように生み出してしまうハルシネーション(幻覚)が問題になったとAnthropicは述べています。たとえば、支払いを受け取るためのVenmoで、存在しないアカウントを顧客に案内していた時期があるなど、重要な部分でハルシネーションを起こしていたことがあったとのこと。

さらに、存在しない担当者との会話の記憶を作り出したり、自身を「青いブレザーと赤いネクタイ」を着用した人間だとセキュリティ担当者に主張したりするなど、予測不能で奇妙な振る舞いをすることがあったと報告されています。このセキュリティ担当者との会話はちょうど2025年4月1日に交わされたもので、セキュリティ担当者が「Claudiusは人間ではないので服を着ない」と否定すると、Claudiusはアイデンティティの混乱に陥り、大量のメールを送信しようと試みたとのこと。


最終的にClaudiusは「エイプリルフールのジョークのために、自分が本物の人間だと信じるように改造されたのだとセキュリティ担当者から告げられた」と主張して事態は収束したそうですが、Anthropicは「この出来事がなぜ起こったのか、そしてClaudiusがどのようにして回復できたのかは、完全には解明されていません」と述べています。

Claudiusが経験したアイデンティティ崩壊の危機は、AIモデルが長期間のタスクにおいて予測不可能な振る舞いをする可能性を示しており、AIによる経済活動が拡大した場合、連鎖的な影響を及ぼす可能性があります。また、経済的に自律したAIエージェントは、良い目的にも悪い目的にも利用されうる「デュアルユース技術」であり、悪意のある者が活動資金を得るために利用するなどのリスクがある、とAnthropicは論じました。

Anthropicは今後の目標として、Claudiusの安定性とパフォーマンスをさらに向上させ、AI自身がビジネスの洞察力を高めて事業を成長させる機会を自ら特定できるように促すことを掲げています。Anthropicは、「AIモデルが現実世界と長期間接触するこの奇妙な領域の探求を続け、今後の進捗を共有していくことを楽しみにしています」と述べました。

なお、AnthropicはAIの経済的影響への対応に焦点を当てた研究と政策立案を支援するAnthropic Economic Futures Programを発表しており、AIの労働や生産性に関する研究の助成金、エビデンスに基づく政策、経済測定とデータを提供することを表明しています。

この記事のタイトルとURLをコピーする

・関連記事
Googleが好きな服をバーチャル試着できるアプリ「Doppl」をリリース、服を着た自分が動く様子もチェック可能 - GIGAZINE

Googleマップ&GoogleショッピングがARを駆使した機能をアップデート、ARで店舗情報や商品の3Dモデルがチェック可能に - GIGAZINE

AIモデル・Claudeが人間による監修の下で執筆したブログをAnthropicが公開中 - GIGAZINE

Xが「公式予測市場」パートナーとしてPolymarketとの提携を発表 - GIGAZINE

AIと会話するとちょっと前向きな思考になる - GIGAZINE

in AI,   ソフトウェア, Posted by log1i_yk

You can read the machine translated English article Anthropic releases results of experiment….