ソフトウェア

GPT4-Vの100分の1のサイズで同等の性能を誇るマルチモーダルモデル「Llama 3-V」が登場、トレーニング費用はたった8万円


画像認識が可能なオープンソースモデルの「Llama 3-V」が公開されました。Llama 3-Vは、OpenAIのマルチモーダルモデル「GPT4-V」よりも格段に小型で、事前トレーニングにかかる費用は500ドル(約78000円)程度なのにもかかわらず、ほとんどの指標で同等のパフォーマンスを示しています。

Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars | by Aksh Garg | May, 2024 | Medium
https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee

今回発表されたLlama 3-Vは、 Metaが公開した言語モデルの「Llama3 8B」をベースにしたモデルで、ベンチマークでは人気マルチモーダルモデルのLlavaに比べてパフォーマンスが10~20%向上していることや、MMMUを除く全ての指標で、サイズが100倍以上あるクローズドソースの競合モデルに匹敵する性能を持つことが示されました。


Llama 3-VはオープンソースモデルとしてHugging FaceとGitHubで公開されています。

mustafaaljadery/llama3v at main
https://huggingface.co/mustafaaljadery/llama3v/tree/main

GitHub - mustafaaljadery/llama3v: A SOTA vision model built on top of llama3 8B.
https://github.com/mustafaaljadery/llama3v

また、Hugging Faceで試用することもできます。

LLaVA++ (LLaMA-3-V) - a Hugging Face Space by MBZUAI
https://huggingface.co/spaces/MBZUAI/LLaMA-3-V


まずサンプルをクリックしてみると、水辺の画像をお題にした「この場所を訪れる際の注意点は?」という質問に対し、「曇りなので急に雨が振ったり嵐になったりする可能性があります。また、船着き場が湖にあるので、浮遊物や水の底にある潜在的な危険物など、水に関する状況に注意が必要です。そして、野生動物を含む周囲の環境に配慮し、安全で楽しい訪問にするためには、その地域の管理者が示したルールやガイドラインに従わなければなりません」と回答しました。


せっかくなので、自分で用意した画像をアップロードしてみます。


続いて、画像の面白いところを尋ねる文章を入力して、「Send」をクリックしました。


すると、「犬が王冠をかぶっているのが面白い」と答えてくれました。


Llama 3-Vを公開したAksh Garg氏によると、このモデルはまず画像を視覚モデルのSigLIPに渡して、画像とテキストの関係性を分析してから、それをLlama 3に渡すことで動作しているとのこと。


Garg氏は、「Llama 3は世界を席巻し、ほとんどのベンチマークでGPT-3.5を、いくつかのベンチマークでGPT-4を上回りました。そして、GPT-4oが登場してマルチモーダルな精度で王座を奪還しましたが、Llama 3-Vはそれをさらにひっくり返すモデルです。Llama 3上に構築されたマルチモーダルモデルは史上初で、おまけにトレーニングに500ドルもかかりません」とコメントしました。

この記事のタイトルとURLをコピーする

・関連記事
Metaが次世代のオープンLLM「Llama 3」を公開、無料で商用利用可能なモデルの中では過去最高の性能 - GIGAZINE

「Llama 2-7B」の1万分の1以下の学習コストなのにLlama 2-7Bを上回る大規模言語モデル「JetMoE-8B」が登場 - GIGAZINE

Metaが商用可能な大規模言語モデル「Llama 2」を無料公開、MicrosoftやQualcommと協力してスマホやPCへの最適化も - GIGAZINE

インストール不要でLlama 3やMistralなどオープンソースLLMをブラウザで動かせるチャットボット「Secret Llama」が登場 - GIGAZINE

Metaの大規模言語モデル「LLaMA」がChatGPTを再現できる可能性があるとさまざまなチャットAI用言語モデルのベンチマーク測定で判明 - GIGAZINE

in ソフトウェア, Posted by log1l_ks

You can read the machine translated English article here.