ソフトウェア

本当にオープンソースのライセンスで利用&検証できる大規模言語モデル「Mistral 7B」が登場、「Llama 2 13B」や「Llama 1 34B」を上回る性能のAI開発が可能


フランスのAIスタートアップであるMistral AIが開発した大規模言語モデル「Mistral 7B」が、2023年9月に登場しました。モデルの重みがApache 2.0ライセンスでリリースされているので自由に調整してチャットAI開発に利用可能となっているほか、パラメーター数を73億個に抑えているにもかかわらず「Llama 2 13B」や「Llama 1 34B」などパラメーター数の大きいモデルよりもベンチマークで高いスコアを残しています。

Mistral 7B | Mistral AI | Open source models
https://mistral.ai/news/announcing-mistral-7b/


Mistral 7Bは73億パラメーターのモデルで、特徴は下記の通り。

・すべてのベンチマークでLlama 2 13Bを上回るパフォーマンス
・多くのベンチマークでLlama 1 34Bを上回るパフォーマンス
・英語のタスクに優れたまま、コーディングタスクでCodeLlama 7Bに近いパフォーマンスを発揮
・推論を高速化するためにGrouped-Query Attendance(GQA)を使用
・スライディング ウィンドウ アテンション(SWA)を使用して、少ないコストで長いシーケンスを処理


Mistral 7BモデルはApache 2.0ライセンスで公開されているため、自由に改変・調整して商用利用することが可能です。GitHubでリファレンス実装が公開されていたり、Skypilotを使用してクラウドサービスへデプロイする方法のドキュメントが用意されていたりするほか、Hugging Faceでもモデルが公開されています。

「Mistral 7B」「LLaMA 2 7B」「LLaMA 2 13B」「LLaMA 1 34B」という4つのモデルを使用してさまざまなベンチマークで性能を比較した結果は下図の通り。パラメーター数が大幅に小さいにもかかわらず、Mistral 7Bは全てのベンチマークでLLaMA 2 13Bを上回り、LLaMA 1 34Bと同等の性能を発揮しています。


また、マルチタスク性能を計測するMMLUのほか、推論、知識、読解力のそれぞれの分野でLLaMA 2がMistral 7Bと同等の性能を出すにはどれくらいのパラメータ数が必要なのかを推測した結果が下図にまとめられています。例えばMMLUにおいて、Mistralは73億パラメータで230億パラメーターのLLaMA 2と同等の性能を出す事ができ、メモリの使用量や推論にかかる時間などのコストを大幅に削減可能です。


Mistral 7Bはスライディング ウィンドウ アテンション(SWA)という手法を利用しています。これはアテンションの計算時にトークン間の全ての組み合わせを計算する代わりに一定範囲のみを計算する手法で、従来のアテンションメカニズムに比べてメモリの使用量や計算時間を大きく削減することができます。


Mistral 7Bはファインチューニングを使用してさまざまなタスクに対応させることが可能で、Mistral AIは一例としてHuggingFaceで公開されている命令データセットを利用してチャット用にファインチューニングしたモデル「Mistral 7B Instruct」を公開しています。このモデルはMT Benchスコアでパラメーター数が70億個付近の全てのモデルを上回り、130億パラメーターのモデルに匹敵する性能と評価されました。


なお、Mistral 7BをリリースしたMistral AIは既に次のモデルのトレーニングを進めており、より大規模で推論の性能が高く、複数の言語にも対応した大規模言語モデルが近日公開予定となっています。

この記事のタイトルとURLをコピーする

・関連記事
ChatGPTなどの大規模言語モデルはどんな理論で成立したのか?重要論文24個まとめ - GIGAZINE

Googleが「大規模言語モデルに視覚を与える仕組み」について解説、メルカリと協力して作成したデモも公開 - GIGAZINE

大規模言語モデルの「検閲」を解除した無修正モデルが作成されている、その利点とは? - GIGAZINE

1万種類を超える大規模言語モデル(LLM)をまとめてダウンロード数や類似性などを分かりやすく視覚化したデータライブラリが公開される - GIGAZINE

従来の大規模言語モデルの制約だった「入力量の限界」を取り払った「RWKV」は一体どんな言語モデルなのか? - GIGAZINE

in ソフトウェア, Posted by log1d_ts

You can read the machine translated English article here.