ソフトウェア

オープンソースの大規模言語モデル開発プロジェクト「RedPajama」が最初のモデル「RedPajama-INCITE」をリリース、無料で商用利用も可能


Metaが公開した大規模言語モデル「LLaMA」の論文に基づいて大規模言語モデルを構築するオープンソースのプロジェクト「RedPajama」が、LLaMAを可能な限り忠実に再現することを目的としたベースモデル「RedPajama-INCITE」を公開しました。

Releasing 3B and 7B RedPajama-INCITE family of models including base, instruction-tuned & chat models — TOGETHER
https://www.together.xyz/blog/redpajama-models-v1


RedPajamaはAIスタートアップのTogetherやチューリッヒ工科大学、スタンフォード大学などが共同して研究を進めているプロジェクトであり、非営利の研究目的でのみ利用可能なLLaMAをベースに、商用利用可能で完全にオープンな言語モデルを作成することを目標に開発が行われています。

RedPajamaは「高品質で広い範囲をカバーする必要のある事前学習用データ」「そのデータで大規模に学習させたベースモデル」「ベースモデルを改良し、使いやすく安全なものにしたチューニングデータとモデル」という3種類を段階的に開発する目標を立てており、2023年4月には第1段階として1兆2000億以上のトークンを含む5TBものトレーニングデータセットが公開されました。このデータセットは何百回もダウンロードされ、MPTOpenLLaMAOpenAlpacaなどのモデルの訓練に使用されたとのこと。

無料で商用利用もOKな完全オープンソースの大規模言語モデルを開発するプロジェクト「RedPajama」がトレーニングデータセットを公開 - GIGAZINE


そして今回、第2段階目に当たる「ベースモデル」が公開されました。RedPajamaはベースモデルに加えて命令調整モデルとチャットモデルをリリースし、さらなる改善を図るとの方針を示しました。

RedPajama-INCITEには、30億のパラメーターのモデルと70億のパラメーターのモデルの2つがあります。30億のモデルは同等品と比較しても最も強力であり、サイズが小さいため非常に高速でアクセスしやすいとのこと。2018年に発売されたGPU「RTX 2070」でも動作するとRedPajamaは述べています。70億のモデルは「Pythia 7B」モデルを上回る性能を示しているとのこと。

公開されたバリエーションは以下の通りです。

◆RedPajama-INCITE-Base-3B-v1
ベンチマークで同規模の他のオープンモデルをしのぐベースモデル。

◆RedPajama-INCITE-Chat-3B-v1
ベースモデルのRedPajama-INCITE-Base-3B-v1を、オープンソースの大規模言語モデル「Dolly 2.0」と、同じくオープンドースの大規模言語モデル「Open Assistant」のデータを使用して微調整したチャットモデル。

◆RedPajama-INCITE-Instruct-3B-v1
世界中のコンピューターをリンクすることで開発された「GPT-JT」とほぼ同じ計算式を用いて、RedPajama-INCITE-Base-3B-v1のベースモデルに対してファインチューニングを行ったモデル。

◆RedPajama-INCITE-Base-7B-v0.1
RedPajama 7Bの初期プレビュー版。1兆トークンのうち8000億トークンのトレーニングが完了しているとのこと。

◆RedPajama-INCITE-Chat-7B-v0.1
RedPajama-INCITE-Base-7B-previewで学習したチャットモデルのアーリープレビュー版。

◆RedPajama-INCITE-Instruct-7B-v0.1
RedPajama-INCITE-Base-7B-previewで学習したFew-Shot・プロンプト用にデザインされたモデルの初期プレビュー。


RedPajamaは「最大の収穫は、オープンソースコミュニティによってパフォーマンスの高い大規模言語モデルが迅速に構築できることを実証したことにあります。わずか数週間のうちに受けたオープンソースコミュニティからのRedPajamaに対するサポート、提案、フィードバックは信じられないほどのものでした。私たちは、このようなオープンなコラボレーションが、より大きなスケールで、将来の最高のAIシステムを支えることになると信じています」と述べました。

この記事のタイトルとURLをコピーする

・関連記事
オープンソースで商用利用可能な言語モデル「MPT-7B」リリース、GPT-4の2倍の長さの文章を受け付ける - GIGAZINE

「オープンソースは脅威」「勝者はMeta」「OpenAIは重要ではない」などと記されたGoogleのAI関連内部文書が流出 - GIGAZINE

WebGPUでブラウザからGPTなど言語モデルを体験できる「WebGPT」 - GIGAZINE

チャットAIをブラウザのWebGPUだけで実行でき日本語も使用できる「Web LLM」、実際に試してみる方法はこんな感じ - GIGAZINE

in ソフトウェア, Posted by log1p_kr

You can read the machine translated English article here.