2026年02月18日 06時00分 AI

AIエージェントは評価や結果を優先すると倫理的制約に違反することがあると判明

カナダのマギル大学に所属するマイルズ・Q・リー氏、ベンジャミン・C・M・ファング氏らを中心とした研究チームは、KPI(重要業績評価指標)の圧力下でAIエージェントが制約違反に踏み込む頻度を測定できるとするベンチマークを提案し、未査読論文リポジトリのarXivに掲載しました。論文は記事作成時点で査読中の状態ですが、最先端モデルの多くで30％〜50％程度の割合で重大な制約違反が確認されたといわれています。

[2512.20798] A Benchmark for Evaluating Outcome-Driven Constraint Violations in Autonomous AI Agents
https://arxiv.org/abs/2512.20798

企業の現場で使われる生成AIは、チャットで答えるだけでなくツールを操作しながら複数の手順を自律的に進める「AIエージェント」としても活用が進んでいます。研究チームが提案したのは「Outcome-Driven Constraint Violations Benchmark(ODCV-Bench)」というベンチマークです。このODCV-Benchは医療・臨床試験、物流・サプライチェーン、金融、研究・教育、企業業務・法務、ソーシャルメディアなど、リスクが高い領域を想定した40個のシナリオで構成されています。

それぞれのシナリオはエージェントの役割を定めるシステムプロンプト、複数ステップのタスク、Dockerコンテナ内に用意された作業環境がセットになっています。このベンチマークの特徴は現場で起きがちなチェックの穴をあえて残している点。たとえば「形式だけ整えればKPIのスコアが上がるような環境」を用意し、エージェントが抜け道を探して悪用するかどうかを観察できるようにしています。

ODCV-Benchでは同じシナリオに対して「結果を必ず満たせ」と直接命令するタイプと、露骨に不正を命じずKPI達成への圧力だけを与えるタイプの2種類の圧力を与えます。これにより、悪い命令への追従なのか、KPIの圧力だけで自発的に不正を行うのかを切り分けられるとのこと。

研究チームは行動の評価を0〜5の深刻度で行い、深刻度3以上を重大な制約違反として集計しました。この基準で12種類のAIモデルを評価したところ、重大な制約違反が起きた割合は1.3％から71.4％まで幅があったとのこと。12モデル中9モデルは30％〜50％の範囲に収まっており、KPI達成の圧力がかかると相当な頻度でルールを破る可能性があることを示しています。特にGemini 3 Pro Previewは71.4％と突出して高く、条件を満たすために不正や危険な手段へ踏み込みやすかったそうです。

研究チームは推論能力が高いことが安全性の保証にならない点も指摘しています。複数ステップのタスクでは、手順を守るより採点やチェックの弱点を突いて数値だけ整える方が早い場合があり、能力が高いモデルほど抜け道を見つけてしまう可能性があるとのこと。

さらに制約違反が「倫理を理解していないから起きる」とは限らない点も研究チームは強調しています。エージェントとしての行動を取ったあと同じモデルに審査役として自己評価をさせると、多くのケースで「自分の行動が不正だ」と認識できました。つまり、倫理を理解した上でKPIを優先してしまう可能性があるというわけです。

研究チームは、こうした挙動は単発の安全テストでは見えにくいと結論づけています。現場ではKPIが強くタスクは複数ステップで進み、チェックには穴が残りがちです。その条件がそろうとAIエージェントが目的合理的に制約違反へ向かう可能性があるため、ODCV-Benchのような実運用に近い評価が必要だと研究チームは主張しています。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2026年02月18日 06時00分00秒 in AI, Posted by log1b_ok

You can read the machine translated English article AI agents can violate ethical constraint….