2023年05月26日 23時00分ソフトウェア

1600以上のAPIを適切に呼び出してAIに付き物の「幻覚」を大幅に減らす言語モデル「Gorilla」が公開される

近年はChatGPTやBardなどの対話型AIが相次いでリリースされ、人間の質問や呼びかけに対して非常に高精度な回答ができることで注目を浴びていますが、これらの対話型AIは時に真実ではないことを真実かのように話す「ハルシネーション(幻覚)」を起こすことがあります。そこで、膨大な数のAPIから適切なものを呼び出し、幻覚を大幅に減らすことができる言語モデル「Gorilla」を、アメリカ・カリフォルニア大学バークレー校とMicrosoft Researchの研究チームが公開しました。

Gorilla: Large Language Model Connected with Massive APIs
https://arxiv.org/abs/2305.15334

Gorilla
https://gorilla.cs.berkeley.edu/

GitHub - ShishirPatil/gorilla: Gorilla: An API store for LLMs
https://github.com/ShishirPatil/gorilla

???? Excited to release Gorilla???? Gorilla picks from 1000s of APIs to complete user tasks, surpassing even GPT-4! LLMs need to interact with the world through APIs, and Gorilla teaches LLMs APIs. Presenting Gorilla-Spotlight demo????
Webpage: https://t.co/QZrtMaYKfa pic.twitter.com/h6aSeofcXu
— Shishir Patil (@shishirpatil_) May 25, 2023

大規模言語モデルは近年めざましい発展を遂げており、プログラミングコードを記述したり長い文章を的確に要約したりするなど、さまざまなタスクで優れた能力を発揮しています。AIは外部のAPIを呼び出して利用することも可能ですが、これまでのAIは膨大な数のAPIの中から適切なものを選び出し、効果的に利用することが困難だったとのこと。

研究チームは、「これはGPT-4のような最先端の大規模言語モデルでさえ困難な課題です。その主な理由は、正確な入力引数を生成できないことと、API呼び出しの間違った使い方を『幻視』してしまう傾向があることです」と指摘しています。

そこで研究チームは、API呼び出しの記述においてGPT-4の性能を上回るように調整された、Metaが開発した大規模言語モデル「LLaMA(Large Language Model Meta AI)」ベースのモデルである「Gorilla」をリリースしました。Gorillaは、ファイルされた数多くのAPIから適切なものを選び出す検索機能を有しており、自然言語クエリから意味的にも構文的にも正しくAPIを呼び出し、APIドキュメントのアップデートやバージョン変更にも柔軟に対応することができるとのこと。また、Gorillaでは大規模言語モデルに直接プロンプトを出力する際に発生する幻覚も大幅に軽減されているそうです。

GorillaのAPIデータベースには、Torch Hubから94、TensorFlow Hub v2から626、Hugging Faceから925の合計1645のAPIが含まれています。これらをもとに訓練されたのがGorillaです。

Gorillaは「I want to see some cats dancing in celebration!(猫がお祝いで踊っているのを見たいです！)」といった自然言語で行われた要求に対し、APIデータベースの中から適切なAPIを選択することが可能。これにより、猫がお祝いで踊っている画像を適切に出力することができるというわけです。

以下の画像は、GPT-4・Claude・Gorillaに対し、「Help me find an API to convert the spoken language in a recorded audio to text using Torch Hub.(Torch Hubを使って、録音した音声の話し言葉をテキストに変換するAPIを探すのを手伝ってください)」というプロンプトを入力した結果を示したもの。GPT-4では幻覚が発生し、Claudeでは間違ったライブラリを呼び出しましたが、Gorillaは適切なAPI呼び出しを提案しました。

Gorillaはエンドツーエンドのモデルであり、追加のコーティングを必要とせず正しいAPIを呼び出すように調整されているそうで、Langchain・Toolformer・AutoGPTなど、他のツールと組み合わせて使用することが可能だと研究チームは述べています。

研究チームのShishir Patil氏によると、Gorillaは「大規模言語モデルのAPIのアプリストア」になるように構築されており、人々がAPIをGorillaに追加することもできるとのことです。

+ We are building Gorilla to be an LLM API appstore - you can add your APIs to Gorilla!
+ Github: https://t.co/mvZWjFQ1x7
+ Join our Discord to stay in the loop!
+ Gorilla-Spotlight sign-up: https://t.co/rvmk13Mhrx
+ Fun collaboration with @tianjun_zhang, @xinw_ai and @mejoeyg
— Shishir Patil (@shishirpatil_) May 25, 2023