ソフトウェア

AIに自力で解決しようとするのではなく「正しいタイミングで外部ツールを頼る」方法を学ばせることでパフォーマンスが約30%上昇したという研究結果


大量のデータでトレーニングされた人工知能(AI)は、さまざまなタスクを高度にこなすことができるほど進化しつつありますが、それでも苦手な分野やミスしやすいケースなどがあります。カリフォルニア大学サンディエゴ校と清華大学による共同研究では、AIがシステムに組み込まれた知識だけに頼るのではなく、「外部ツールにいつ頼るべきか」をAIに教えることで、パフォーマンスの制度が28%向上することが示されました。

[2411.00412] Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation
https://arxiv.org/abs/2411.00412

UC San Diego, Tsinghua University researchers just made AI way better at knowing when to ask for help | VentureBeat
https://venturebeat.com/ai/uc-san-diego-tsinghua-university-researchers-just-made-ai-way-better-at-knowing-when-to-ask-for-help/


AIは、入力された内容に対していかにもそれっぽいように見えるいい加減な内容を出力してしまうことがあります。この現象は「幻覚(ハルシネーション)」と呼ばれており、生成AIの導入を検討している企業にとって「幻覚」によるエラーは最も懸念するリスクの1つといえます。オープンソースの幻覚評価モデル「HEM」を発表したAI企業のVectaraでエンジニアを務めるサイモン・ヒューズ氏は「生成AIを組織が効果的に導入するには、リスクと潜在的なマイナス面を明確に把握する必要があります」とコメントしています。ヒューズ氏によると、1000件のドキュメントを要約した結果をHEMで評価したところ、最も高いもので27.2%の「幻覚率」があったそうです。

大規模言語モデルが「幻覚」を引き起こすリスクを客観的に検証できるオープンソースの評価モデルをVectaraがリリース - GIGAZINE


AIの幻覚を防ぐアプローチとして、カリフォルニア大学サンディエゴ校と清華大学による論文では「Adapting While Learning(学習しながら適応する)」と名付けた新しいAIのトレーニングプロセスを提案しています。従来までの方法だと、大規模言語モデル(LLM)をその他のツールと統合すると、タスクで得られる結果の信頼性は向上しますが、ツールへの過度の依存につながり、基本的な推論を通じて単純な問題を解決するモデルの能力が低下する傾向にありました。

「Adapting While Learning」では、モデルが外部ツールを使用して生成されたソリューションから学習していくことで、参照する知識を内部化します。次に、問題を「簡単」または「難しい」に分類することを学習し、それに応じてツールを使用するかどうかを決定します。つまり、AIが取り組むタスクの難易度を評価できるようにすることで、難しさに応じてツールを頼るかどうか決定できるようにしているというわけです。


「Adapting While Learning」の重要な点のひとつは、効率を第一に考えたアプローチであることです。研究者はGPT-4などの大手LLMと比較してはるかに少ない、約80億のパラメータを持つLLMを使用した結果、GPT-4oやClaude-3.5などの最先端のモデルと比較して、回答精度が28.18%向上し、ツール使用精度が13.89%向上したという結果を報告しています。

大手AI企業はより小型で高性能なLLMをリリースする「AIのダウンサイジング」のフェーズに入りつつあり、この研究はそのような業界の傾向に沿ったものであると、オンラインメディアのVentureBeatは指摘しています。研究では、「内部知識で解決するか、ツールを使用するか」を判断する能力が、純粋なモデルの規模や計算能力よりも、AIにとって重要である可能性があることを示唆しています。


現在のAIシステムのほとんどは、常に外部ツールに頼るか、すべてを内部で解決しようとするかのどちらかです。常に外部ツールにアクセスするAIは計算コストが上昇し、単純な操作が遅くなるデメリットがあります。また、内部知識だけで解決するAIは、十分にトレーニングされていない分野でうまく働きません。いずれのアプローチでも、特殊なツールを必要とする複雑な問題で潜在的なエラーが発生します。

この非効率性は技術的な問題だけではなくビジネス的な問題もあります。AIを実践に用いる企業は、AIが内部で処理すべき基本的なタスクであっても外部ツールを実行するためにクラウドコンピューティングリソースに高額な料金を支払わなければいけなかったり、スタンドアロンのAIシステムは適切なツールを必要な時に使用しないことでミスが発生したりと、満足なパフォーマンスを得にくいものとなっています。AIがツールを使用するタイミングについて「人間のような判断をする」というモデルは、効率と精度の両方が重要となる科学研究、財務モデリング、医療診断などの分野で特に価値があると期待されています。

この記事のタイトルとURLをコピーする

・関連記事
Metaの言語モデル「Toolformer」は検索エンジン・電卓・カレンダーなどをAPIで呼び出し使用する - GIGAZINE

オープンソースのコーディング支援AI「Qwen2.5-Coder」シリーズの性能はGPT-4oに匹敵、64GBのRAM&M2搭載MacBook Proでもローカル実行可能 - GIGAZINE

OpenAIがAI検索サービス「ChatGPT search」を発表、何度もググる必要がなくなるとアピール - GIGAZINE

OpenAIが言語モデルの事実性を測定するベンチマーク「SimpleQA」をオープンソースでリリース - GIGAZINE

大規模言語モデルが「幻覚」を引き起こすリスクを客観的に検証できるオープンソースの評価モデルをVectaraがリリース - GIGAZINE

in ソフトウェア, Posted by log1e_dh

You can read the machine translated English article here.