2023年05月25日 06時00分ソフトウェア

人間による評価をシミュレートすることで高速＆安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される

大規模言語モデルの学習においては、実際の人間による評価をモデルの出力に反映させる「Reinforcement Learning from Human Feedback(RLHF)」が行われます。しかし、RLHFは実在の人間を使うため報酬の支払いでコストがかさんだり、フィードバックを回収するまでに時間がかかるなどの欠点が存在していました。「AlpacaFarm」は「人間がどんな評価を返すのか」をシミュレートすることで安価＆高速にRLHFを進めることができるツールです。

Stanford CRFM
https://crfm.stanford.edu/2023/05/22/alpaca-farm.html

(PDF)AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback
https://tatsu-lab.github.io/alpaca_farm_paper.pdf

大規模言語モデルの学習は下図のようなステップで進んでいきます。まず大量のテキストでモデルをトレーニングして「Pretrained LLM」を作成し、次にお手本となるデータを用いて「教師付きファインチューニング」を行い「SFTモデル」を作成します。この上で、さらに精度を高める際に用いられるのがRLHFです。

AlpacaFarmには「モデルの返答に評価を与える」「基準モデルと新しいモデルを比較評価する」「参照実装との比較を提供する」という3つの機能が存在しています。

モデルの返答への評価について人間とAlpacaFarmの一致率は下図の通り。下図は基準となるモデルよりも評価対象のモデルの返答がすぐれていると判定される割合をプロットしたもので、この図を見ると人間による評価が低い場合にはAlpacaFarmのシミュレーションでも評価が低くなっており、逆に人間が高く評価するモデルをAlpacaFarmも高く評価していることが分かります。実際の人間に評価してもらう場合に比べて45分の1のコストおよびはるかに短い時間で同等の評価ができると述べられています。

さらに、AlpacaFarmによるシミュレーションでは実際の人間を利用したRLHFを行う場合と同様に過剰最適化などの現象が発生します。下図の左端が人間によるRLHFで、一度はモデルのパフォーマンスが上昇するもののさらにRLHFを続けるとパフォーマンスが下がる現象が山型のグラフに現れています。真ん中のAlpacaFarmによるRLHFでも同等の現象が再現できており、まさに人間による評価と同等の評価を返せていることがうかがえます。右端のGPT-4を利用したRLHFのグラフは右肩上がりになっており再現に失敗しています。

AlpacaFarmの2つ目の機能であるモデル同士の評価では、複数の公開データセットを元に新たな評価用のデータセットを作成したとのこと。Alpaca 7Bのデモ版が公開されていた時に集めた実際の使用例のデータにできるだけ似たようなセットになるように調整したと述べられています。実際の使用例のプロンプトと新たな評価用のプロンプトでDavinci003モデルとRLHFモデルの返答を生成し、「どちらが評価の高い回答を生成できるか」をシミュレートしました。

結果は下図のようになり、既存の公開データセットをまとめることで実際に行われる単純な命令のパフォーマンスを十分に近似できることが示されています。

AlpacaFarmの最後の特徴は「PPO」「Best-of-n」「Expert Iteration」という一般的な学習アルゴリズムの3つを参照実装として搭載していることです。AlpacaFarmの開発チームはAlpacaをこの3つのRLHFモデルおよびその他のモデルでDavinci003との勝率比較を行いました。その結果、人間による評価ではPPOがChatGPTを上回る評価を得られたとのこと。