ソフトウェア

無料で商用利用可能な大規模言語モデル「Mixtral 8x7B」が登場、低い推論コストでGPT-3.5と同等以上の性能を発揮可能


GoogleのDeepMindやMeta出身の研究者によって設立されたAI企業のMistral AIが、大幅にモデルのサイズを縮小してコストパフォーマンスに優れた推論を行える大規模言語モデル「Mixtral 8x7B」をリリースしました。多くのベンチマークでGPT-3.5やLlama 2 70Bを上回る性能を持つとされています。

Mixtral of experts | Mistral AI | Open source models
https://mistral.ai/news/mixtral-of-experts/


Mistral AIは2023年5月に設立されたフランスのスタートアップAI企業で、9月にはパラメーター数を70億に抑えながら「Llama 2 13B」や「Llama 1 34B」を上回る性能を持つ大規模言語モデル「Mistral 7B」をリリースするなど積極的にAIの開発を行っています。2023年12月に行った資金調達では評価額が約3000億円とされており、急速に規模を拡大しています。

そんなMistral AIが2023年12月11日に新たなモデル「Mixtral 8x7B」をリリースしました。Mixtral 8x7BはMistral 7BモデルをベースにTransformer内のFeedForwardブロックを8倍のサイズに拡張したモデルとのこと。モデルの一部のみが8倍になっているため、パラメーターの総数は560億ではなく467億となっています。


さらに、推論において毎回全てのFeedForwardブロックを使用するのではなく、8個のブロックのうち2つのみをトークンの処理に利用することで、トークンの処理に利用されるパラメーターの数を129億に抑えています。この仕組みを利用することで129億パラメーターと同じ速度・同じコストで推論を行う事が可能とのこと。

Mixtral 8x7Bのスペックは下記の通り。

・3万2000トークンのコンテキストを処理可能
・英語、フランス語、イタリア語、ドイツ語、スペイン語に対応
・コード生成において強力なパフォーマンスを発揮
・ファインチューニングでMT-Benchで8.3というスコアを出せる命令追従モデルにすることが可能


大規模言語モデルの評価に使用されるさまざまなベンチマークにおいて、Mixtral 8x7BはLLaMA 2 70BやGPT-3.5と同等かそれ以上の評価を獲得しています。パラメーター数が小さく推論コストが低いため、かなりコストパフォーマンスが高くなっています。


Mistral 7Bと推論コストあたりの性能を比較した結果は下図の通り。この図からも推論コストを抑えつつパフォーマンスが向上していることが分かります。


また、Mixtral 8x7Bは幻覚や偏見についても改善が行われており、多くの指標でLlama 2 70Bモデルを上回りました。


同時に多言語対応も行われており、英語のほかにフランス語、イタリア語、ドイツ語、スペイン語をLlama 2 70Bモデル以上にうまく扱うことができます。


Mixtral 8x7BはApache 2.0でライセンスされているオープンソースモデルで、自由に改変や商用利用することが可能です。モデル自体がHugging Faceでホスティングされているほか、Mistral AIのmistral-smallエンドポイントを通して利用することが可能とのこと。ただし、記事作成時点ではmistral-smallエンドポイントはベータ版となっており、待機リストに登録して順番待ちをする必要がありました。

この記事のタイトルとURLをコピーする

・関連記事
本当にオープンソースのライセンスで利用&検証できる大規模言語モデル「Mistral 7B」が登場、「Llama 2 13B」や「Llama 1 34B」を上回る性能のAI開発が可能 - GIGAZINE

わずか4GBの実行ファイル1つで大規模言語モデルによるAIを超お手軽に配布・実行できる仕組み「llamafile」をWindowsとLinuxで簡単に実行してみる方法 - GIGAZINE

オープンソースで商用利用可能な大規模言語モデル「Falcon」が登場、オープンソースモデルの中では最高の性能に - GIGAZINE

インターネット上の最新情報を収集して最近の話題に対応できる大規模言語モデル「pplx-7b-online」&「pplx-70b-online」が公開されたので性能を確かめてみた - GIGAZINE

無料で商用利用もOKな完全オープンソースの大規模言語モデルを開発するプロジェクト「RedPajama」がトレーニングデータセットを公開 - GIGAZINE

in ソフトウェア, Posted by log1d_ts

You can read the machine translated English article Introducing the large-scale language mod….