ソフトウェア

Metaが「マルチトークン予測」を実行する事前トレーニング済みのコード生成モデルをオープンソースでリリース


通常、大規模言語モデル(LLM)のほとんどは「次の単語を予測する」という作業を行っており、一度に出力されるデータ(トークン)は1つです。これに対しMetaは2024年4月の論文で、一度に複数のトークンを出力する「マルチトークン予測」というアプローチを提案しています。7月4日、Metaがマルチトークン予測を用いた事前トレーニング済みモデルを、AI開発プラットフォームのHugging Faceにオープンソースでリリースしました。


facebook/multi-token-prediction · Hugging Face
https://huggingface.co/facebook/multi-token-prediction

Meta drops AI bombshell: Multi-token prediction models now open for research | VentureBeat
https://venturebeat.com/ai/meta-drops-ai-bombshell-multi-token-prediction-models-now-open-for-research/

Meta open-sources new ‘multi-token prediction’ language models - SiliconANGLE
https://siliconangle.com/2024/07/04/meta-open-sources-new-multi-token-prediction-language-models/

ほとんどの大規模言語モデルは一度に1つのトークンを出力しており、これは単純でスケーラブルな一方、トレーニングに膨大なデータが必要で非効率的という問題点もあります。これに対し、Metaが提案したマルチトークン予測は一度に複数のトークンを生成することで、大規模言語モデルのパフォーマンスとトレーニング効率が向上するとされています。


Metaは7月4日に、マルチトークン予測を実装した4つのトレーニング済み大規模言語モデルを、Hugging Faceにオープンソースで公開しました。4つのモデルはコード生成タスクに焦点を当てており、それぞれ70億のパラメーターを備えています。

テクノロジー系メディア・SiliconANGLEによると、各モデルは一度に4つのトークンを出力するとのこと。マルチトークン予測が従来のアプローチより高品質のコードを生成する理由は不明ですが、大規模言語モデルのトレーニングに使われる「teacher-forcing(教師強制)」という手法による制限が、複数のトークン生成によって緩和される可能性があるとMetaは考えています。

Metaは、マルチトークン予測を採用したモデルのパフォーマンスを、コーディングタスクのベンチマークであるMBPPHumanEvalでテストしました。その結果、従来の大規模言語モデルと比較してMBPPで17%、HumanEvalで12%優れたパフォーマンスを発揮し、出力速度も3倍に向上したとのことです。


テクノロジー系メディア・VentureBeatは、マルチトークン予測は単なる大規模言語モデルの効率向上にとどまらず、言語構造やコンテキストをより高い精度で理解できるようにすることで、人間とAIの間のギャップを埋める可能性があるとしています。その一方で、AIを用いた誤情報の生成やサイバー攻撃など、潜在的な悪用の障壁も下げてしまうため、高度なAIツールをオープンソースで公開することはメリットとデメリットの両方があると指摘しました。

この記事のタイトルとURLをコピーする

・関連記事
Metaの基礎AI研究チームが複数の研究を発表、AIモデルやデータセットなど複数の成果を共有 - GIGAZINE

Metaがコードのコンパイルや最適化を行える商用利用可能な大規模言語モデル「Meta Large Language Model Compiler」をリリース - GIGAZINE

Metaが次世代のオープンLLM「Llama 3」を公開、無料で商用利用可能なモデルの中では過去最高の性能 - GIGAZINE

「オープンソース」を称するAIモデルは実際どのくらいオープンなのか? - GIGAZINE

Metaはどのようにして大規模なAIを稼働させるインフラをメンテナンスしているのか? - GIGAZINE

Metaのマーク・ザッカーバーグCEOが汎用人工知能(AGI)の開発とオープンソース化を目指すと発表、35万台のH100を含む計算インフラも構築中 - GIGAZINE

Metaが大規模言語モデルをトレーニングする上でどこに注意したのか&どのように取り組んだのかを解説 - GIGAZINE

in ソフトウェア,   ネットサービス, Posted by log1h_ik

You can read the machine translated English article here.