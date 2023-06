RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうものですが、そうしたRLHF用データの入力や管理を行ってくれるプラットフォームが「 Argilla 」です。 Bringing LLM Fine-Tuning and RLHF to Everyone https://argilla.io/blog/argilla-for-llms/ 大規模言語モデルを作成する時の手順を示したのが下の図です。まず大量のテキストを用いて事前学習を行います。こうして作成されたモデルが事前学習済みモデルで、GPTやPaLM、 LLaMA などのモデルがこのカテゴリに属しています。この状態でも文章を作成することは可能ですが、さらに品質を高めるために「教師ありファインチューニング」「報酬モデル作成」「報酬モデルによる強化学習」というトレーニングを積み重ねていくというわけ。段階に応じて適切なトレーニングを積み重ねていくことでChatGPTのような高品質な大規模言語モデルが作成できます。

