ソフトウェア

Metaの大規模言語モデル「LLaMA-65B」のデータが4chanで流出


Metaが2023年2月に発表した大規模言語モデル「LLaMA」はGPT-3と匹敵する性能を持ち、単体のGPUでも動作可能なほどに動作が軽いことから、コンシューマーレベルのハードウェア環境でもChatGPTのようなAIを動かせるようになることが期待されています。そんなLLaMAのデータが流出したと話題になっています。

Facebook LLAMA is being openly distributed via torrents | Hacker News
https://news.ycombinator.com/item?id=35007978

LLaMAはMetaのAI研究組織であるMeta AI Researchによって開発された大規模言語モデルです。OpenAIのChatGPTやDeepMindのChinchillaなど、従来の大規模言語モデルを動作させるためにはAIに最適化したアクセラレーターを複数台使う必要があったのに対し、LLaMAは単体のGPUでも十分動作可能で、モデルの規模を示すパラメーター数も圧倒的に少なくて済むというのが利点。記事作成時点では、モデルデータの一部がGitHubで公開されており、Meta AI Researchに連絡すればニューラルネットワークで学習した「重み」を別途ダウンロード可能という状態です。

Metaが大規模言語モデル「LLaMA」を発表、GPT-3に匹敵する性能ながら単体のGPUでも動作可能 - GIGAZINE


しかし、オンライン掲示板サイト・4chanのAIチャットボットについて語るスレッドで2023年3月3日に、「llamanon !!T2UdrWkLSWB」というユーザーが突如LLaMA-65B(パラメーター数650億)の「重み」のデータをダウンロードできるTorrentファイルとマグネットリンクを公開しました。


また、GitHubにあるLLaMAのリポジトリには、4chanで公開されたマグネットリンクの追加がプルリクエストされています。

Save bandwidth by using a torrent to distribute more efficiently by ChristopherKing42 · Pull Request #73 · facebookresearch/llama · GitHub
https://github.com/facebookresearch/llama/pull/73/files


さらに、この流出したLLaMAの重みデータを基に、LLaMAの7B(パラメーター数70億)・13B(パラメーター数130億)・30B(パラメーター数300億)・65Bの重みデータを40MB/sでダウンロードできるダウンローダーがGitHubで公開されています。

GitHub - shawwn/llama-dl: High-speed download of LLaMA, Facebook's 65B parameter GPT model
https://github.com/shawwn/llama-dl


ダウンローダーを公開したショーン・プレッサー氏は「すでにLLaMAの重みデータがリークされたことを危険だと主張する人も出てきています。しかし、GPT-2の1.5B(パラメーター数15億)モデルがリークした時も皆同じことを言っていました。実際、GPT-2の大きな魅力が、2019年に私が機械学習について真剣に取り組む原動力となったのです。あれから4年経った2023年になって、GPT-2のリークモデルについてはもう誰も気にしていませんし、広範な社会的被害はなかったことがはっきりとわかりました。LLaMAも同様でしょう」とコメントしています。

この記事のタイトルとURLをコピーする

・関連記事
イーロン・マスク氏が「ChatGPTのライバル」開発チームを募集中との報道 - GIGAZINE

SnapchatがOpenAIのGPT-3をベースとした独自のチャットボット「My AI」をリリース - GIGAZINE

3200以上のアプリでTwitterのAPIキーが流出していることが判明、アカウント乗っ取りも可能 - GIGAZINE

ロシア最大の検索エンジン「Yandex」のソースコード流出で検索ランキングの決定要因が明らかに - GIGAZINE

メール配信サービス「Mailchimp」がハッカーによる不正アクセスを受け顧客データの一部が流出か - GIGAZINE

in ソフトウェア,   ネットサービス, Posted by log1i_yk

You can read the machine translated English article Data of Meta's large-scale language ….