ソフトウェア

ChatGPTなどの大規模言語モデルはどんな理論で成立したのか?重要論文24個まとめ


2022年11月にChatGPTが公開され、たった1週間で100万ユーザーを超えたのをきっかけに、GoogleのBardやMicrosoftのBing AI Chatなど、大規模言語モデルを利用したチャットAIが続々とリリースされています。チャットAIを研究しているセバスティアン・ラシュカさんが、チャットAIが実用化されるまでの研究の軌跡を重要な論文24個に絞って要約しています。

Understanding Large Language Models - by Sebastian Raschka
https://magazine.sebastianraschka.com/p/understanding-large-language-models


◆目次
・主要なアーキテクチャとタスク
・スケーリングと効率性の向上
・言語モデルを意図した方向へ誘導する
・人間のフィードバックによる強化学習(RLHF)



・主要なアーキテクチャとタスク

◆1:Neural Machine Translation by Jointly Learning to Align and Translate (2014)
回帰型ニューラルネットワーク(RNN)において、入力のどの部分を重視するのかという「アテンション」を導入することで、より長い文章を正確に扱えるようになりました。


◆2:Attention Is All You Need (2017)
エンコーダー部分とデコーダー部分で構成されている「トランスフォーマー」モデルが導入されました。この論文ではさらに位置入力エンコーディングなど現代の基礎となっている概念を多数導入しています。


◆3:On Layer Normalization in the Transformer Architecture (2020)
トランスフォーマーモデルの「Norm」レイヤーをブロックの前の部分に配置した方がより効果的に機能することを示しました。


◆4:Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Neural Networks (1991)
1991年にはすでにトランスフォーマーと同等のアプローチが検討されていました。ラシュカさんは「歴史に興味がある人にオススメ」と述べています。


◆5:Universal Language Model Fine-tuning for Text Classification (2018)
言語モデルを事前学習&ファインチューニングの2段階に分けてトレーニングすることでタスクを上手にこなせるようになることを示しました。この論文はトランスフォーマーの論文の1年後に書かれていますが、トランスフォーマーではなく通常のRNNに焦点が当てられています。


◆6:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018)
エンコーダーとデコーダーに分かれているというトランスフォーマーの構造にしたがって、研究分野もテキスト分類などを行うエンコーダー型トランスフォーマーの方向と、翻訳や要約などのデコーダー型トランスフォーマーの方向の2方向に分かれていきました。

BERT論文では文章の一部をマスクして予測させるというテクニックが導入され、言語モデルが文脈を理解できるようになりました。


◆7:Improving Language Understanding by Generative Pre-Training (2018)
最初のGPTの論文です。デコーダー型の構造を持った言語モデルを「続く単語を予測する」という方法でトレーニングしました。


◆8:BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension (2019)
予測が得意なエンコーダー型トランスフォーマーとテキスト生成が得意なデコーダー型トランスフォーマーを組み合わせて両方の長所を活用できるようにしました。


◆9:Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond (2023)
研究論文ではなく、さまざまなアーキテクチャがどのように進化したのかという調査結果をまとめた論文です。右の青い枝で表示されているように、特にデコーダー型の発展が顕著であることが見て取れます。



・スケーリングと効率性の向上

◆10:FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (2022)
アテンションの計算を高速に行うことができ、さらにメモリの消費量も減らせるという素晴らしいアルゴリズムの解説です。


◆11:Cramming: Training a Language Model on a Single GPU in One Day (2022)
小さいモデルは高速にトレーニング可能ですが、同時にトレーニングの効率も落ちてしまうことが示されました。逆に言うとモデルのサイズを大きくした場合でも似たような時間でトレーニング可能ということです。


◆12:LoRA: Low-Rank Adaptation of Large Language Models (2021)
大規模言語モデルをファインチューニングする時の手法はさまざまですが、その中でもパラメーター効率の高い方法が「LoRA」です。


LoRAについては下記の記事の途中で解説されています。

GPUメモリが小さくてもパラメーター数が大きい言語モデルをトレーニング可能になる手法「QLoRA」が登場、一体どんな手法なのか? - GIGAZINE


◆13:Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning (2022)
事前学習済みの言語モデルはさまざまなタスクを上手にこなしますが、その中でも特定のタスクに特化させたい場合はファインチューニングが必要です。この論文では、ファインチューニングを効率的に行うための手法が多数レビューされています。


◆14:Scaling Language Models: Methods, Analysis & Insights from Training Gopher (2022)
言語モデルのパラメーター数を増やしたときにパフォーマンスがどのように向上するのかを確認すると、文章理解や事実確認、毒のある言葉の特定などのタスクが得意になることが分かりました。一方で、論理や数学的推論のタスクはあまり成績が変化しなかったとのこと。


◆15:Training Compute-Optimal Large Language Models (2022)
生成タスクの成績向上について、モデルのパラメーター数とトレーニングデータの数の新たな関係を示しました。GPT-3やGopherなどのモデルはトレーニング不足だと指摘しています。


◆16:Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling (2023)
トレーニングの過程で言語モデルがどのように能力を身につけていくのかを研究しました。


この論文では下記の内容が示されています。
・重複データでのトレーニングは利益も害もない
・トレーニングの順序は暗記には影響なし
・事前トレーニングで何回も使った単語は関連タスクのパフォーマンスが良くなる
・バッチサイズを2倍にするとトレーニング時間は半分になるものの収束には影響なし


・言語モデルを意図した方向へ誘導する

◆17:Training Language Models to Follow Instructions with Human Feedback (2022)
強化学習のループに人間を組み込んだ「人間のフィードバックによる強化学習(RLHF)」を導入しました。この論文で用いられた言語モデルの名前を用いてInstructGPT論文と呼ばれています。


◆18:Constitutional AI: Harmlessness from AI Feedback (2022)
「無害」なAIを作成するために、ルールに基づく自己トレーニングメカニズムを開発しました。


◆19:Self-Instruct: Aligning Language Model with Self Generated Instruction (2022)
言語モデルをファインチューニングする際、人間が命令データを用意しているとスケールが難しいという問題があります。この論文では、命令データ自体も言語モデルに用意させる仕組みが記述されています。元の言語モデルや人間が用意したデータで訓練したモデルよりも性能が良くなるものの、RLHFを行ったモデルには負けてしまうとのこと。



・人間のフィードバックによる強化学習(RLHF)

RLHFは、2023年5月時点で利用可能なオプションの中で最良のものだと考えられるとラシュカさんは述べています。今後もさらにRLHFの影響力が高まっていくとラシュカさんは見込んでいるため、よりRLHFについて詳しく学習したい人のために追加でRLHFの論文を紹介するとのこと。

◆20:Asynchronous Methods for Deep Reinforcement Learning (2016)
方策勾配法を導入した論文です。

◆21:Proximal Policy Optimization Algorithms (2017)
方策勾配法を改良し、データ効率とスケーリングを高めたProximal Policy Optimization(PPO)を開発しました。

◆22:Fine-Tuning Language Models from Human Preferences (2020)
RLHFにPPOを導入しました。

◆23:Learning to Summarize from Human Feedback (2022)
「事前学習」→「ファインチューニング」→「PPO」という3ステップのトレーニングで通常の教師あり学習よりも優れた成績を残すモデルを作成しました。


◆24:Training Language Models to Follow Instructions with Human Feedback (2022)
17番の論文が再登場しました。上記同様の3ステップでトレーニングを行いますが、テキスト要約の代わりにテキスト生成を重視し、評価の選択肢数を増やしています。

この記事のタイトルとURLをコピーする

・関連記事
ChatGPTなどの対話型AIの基礎となっている「Attention」を可視化した「Attention Viz」 - GIGAZINE

大規模言語モデルの開発者が知っておくと役立つさまざまな数字 - GIGAZINE

GPT-4やPaLMなどの大規模言語モデルは規模が大きくなると突然予想外の能力を開花させることがある - GIGAZINE

GPUメモリが小さくてもパラメーター数が大きい言語モデルをトレーニング可能になる手法「QLoRA」が登場、一体どんな手法なのか? - GIGAZINE

オープンソースの大規模言語モデル開発プロジェクト「RedPajama」が最初のモデル「RedPajama-INCITE」をリリース、無料で商用利用も可能 - GIGAZINE

「GPT-3」などの最新言語モデルが自然に他者の心を推察する能力である「心の理論」を獲得していたという研究論文 - GIGAZINE

Microsoftが発表したGPT-4の論文には数多くのコメントアウトされた内容が残されていた - GIGAZINE

in ソフトウェア, Posted by log1d_ts

You can read the machine translated English article here.