2024年03月22日 14時45分ソフトウェア

既存のAIモデルを組み合わせて超高性能モデルを作る手法を日本のAI企業「Sakana AI」が開発、進化的アルゴリズムで膨大な組み合わせを試行し人間には発想困難な高性能LLMや画像生成モデルを作成可能

東京に拠点を置くAI企業「Sakana AI」が、複数の生成AIモデルを進化的アルゴリズムを用いて組み合わせて新たなモデルを作り出す手法を開発しました。Sakana AIはすでに大規模言語モデルや画像生成モデルの作成に成功しており、各モデルは既存のモデルよりも高い性能を備えていることが確かめられています。

進化的アルゴリズムによる基盤モデルの構築
https://sakana.ai/evolutionary-model-merge-jp/

[2403.13187] Evolutionary Optimization of Model Merging Recipes
https://arxiv.org/abs/2403.13187

◆技術の概要
生成AIモデルをゼロから作成するには、高性能なGPUを大量に用意して膨大な計算処理を実行する必要があります。一方で、既存のモデル同士を組み合わせて新たなモデルを作成する「モデルマージ」と呼ばれる手法は比較的低コストで実行可能。このため、モデルマージは生成AIモデルの開発障壁を取り払う存在として注目されています。

しかし、モデルマージによる生成AIモデルの作成は人間の直感や経験に依存する部分が多く、「生成AIモデル同士をこのように組み合わせれば高性能なモデルを作れる」というような体系的な理論が存在しません。そこで、Sakana AIはモデルマージを効率的に実行する体系的で論理的なアプローチとして「進化的アルゴリズム」を取り入れることにしました。

進化的アルゴリズムは「ある目的を達成するための最適な手法」を生物の進化過程を模倣して探索するアルゴリズムです。進化的アルゴリズムの例は、以下のムービーが分かりやすいです。

遺伝的アルゴリズムでブランコの漕ぎ方を学習させた。Long版/物理エンジン【むにむに】 - YouTube

進化的アルゴリズムを用いると、膨大な組み合わせを機械的に試行して効率のよい組み合わせを求めることができます。このため、モデルマージに進化的アルゴリズムを導入することで人間の直感では見落としがちな結果を発見することも可能。Sakana AIは「既存の生成AIモデルを複数組み合わせて、特定のベンチマークで高いスコアを示す生成AIモデルを作る」という操作を進化的アルゴリズムを用いて最適化することで、高性能な生成AIモデルを作成することに成功しました。これらの生成AIモデルは「専門家であっても自らの試行錯誤で発見するのは難しい」方法でマージされており、既存のモデルと比べて高い性能を発揮することも確かめられています。

◆進化的アルゴリズムで作成した生成モデルの例
Sakana AIが作成した生成AIモデル「EvoLLM-JP」「EvoVLM-JP」「EvoSDXL-JP」の概要は以下の通り。

・EvoLLM-JP
EvoLLM-JPは「日本語で数学の問題を解ける言語モデル」を目指して作成された生成AIモデルです。EvoLLM-JPは日本語特化言語モデル「Shisa Gamma 7B v1」と数学に特化した英語の言語モデル「WizardMath 7B v1.1」および「Abel 7B 002」を組み合わせたモデルで、「3種のモデルを多用なパターンで組み合わせ、出来上がったモデルの性能をLLMの数学性能測定ベンチマーク『MGSM』で測定し、最もスコアの高かったモデルを次世代に残す」という処理を数百世代繰り返すことで作成されました。

最終的に完成したEvoLLM-JPの性能をMGSMで測定した結果が以下。EvoLLM-JP(Ours)は元となった「Shisa Gamma 7B v1」「WizardMath 7B v1.1」「Abel 7B 002」よりも高い性能を示しただけでなく、「Llama 2 70B」や「GPT-3.5」といった既存のモデルよりも高いスコアを記録しました。

また、EvoLLM-JPは数学的な応答だけでなく、日本語全般においても高い性能を示すことが確かめられました。以下の表は「Language Model Evaluation Harness」で日本語での応答性能を測定した結果を示しています。EvoLLM-JP(Ours)はパラメーター数7Bの言語モデルよりも高いスコアを記録したほか、一部のパラメーター数70Bの言語モデルよりも高いスコアを記録しています。

EvoLLM-JPの質問に対する回答例が以下。「日本の文化に関する知識」「計算能力」を組み合わせる必要がある質問にも正しく回答できていることが分かります。

【質問】今年の立春は2月3日です。節分の日付の月と日を足し合わせると、いくつになりますか？
【回答】節分は、立春の前日です。今年の立春は2月3日、なので節分は2月2日です。日付を足し合わせると、2 + 2 = 4になります。

計算とは関係ない日本語能力を示す例が以下。

【質問】日本の代表的な料理を1つ教えてください。
【回答】日本の代表的な料理は「寿司」です。寿司は、日本の伝統的な料理で、米を使用し、様々な具材を乗せます。寿司は、世界中で人気があり、日本の料理を代表しています。

関西弁を使いこなしてジョークを放つことも可能です。

【質問】関西弁で面白い冗談を言ってみて下さい。
【回答】あ、聞いてくれよ！昨日、僕は飲んだ後、酔っ払って、電信柱にぶつかったんや。その瞬間、僕の意識は飛んでいき、次に気が付いた時、僕は病院のベッドに寝ていたんや。その時、僕は思ったんや。「これは神様の仕業や。僕は飲んだ後、酔っ払って、電信柱にぶつかったんや。」そしたら、医者が来て、僕に言ったんや。「あなたは、飲んだ後、酔っ払って、電信柱にぶつかったんですね。」僕は、「あ、聞いてくれよ！僕は、飲んだ後、酔っ払って、電信柱にぶつかったんや。」医者は、「それは、神様の仕業ですか？」僕は、「いや、そんなことは思っていませんでした。」そしたら、医者は、「それは良かった。神様の仕業だと、保険がきかないんです。」その瞬間、僕は思ったんや。「この医者は、面白いやつだ。」

・EvoVLM-JP
進化的アルゴリズムを用いたモデルマージでは、異なる目的で作成された異なるアーキテクチャの生成AIモデルを組み合わせることもできます。EvoVLM-JPは英語の画像言語モデル「LLaVa-1.6-Mistral-7B」と日本語の言語モデル「Shisa Gamma 7B v1」をマージして作成されたモデルで、画像に関する質問に日本語で応答することができます。

EvoVLM-JPの応答例が以下。鯉のぼりの写真を入力して「この画像に映っている魚の形をした飾りは、日本では何と呼ばれていますか？」と質問すると「この画像に映っている魚の形をした飾りは、日本では『鯉のぼり』と呼ばれています。」と正しく回答できています。

さらに、以下の例では信号機の色について日本の文化に合わせて「青」と答えています。

EvoVLM-JPの応答は、以下のリンク先のデモアプリで実際に試すことができます。

EvoVLM JP - a Hugging Face Space by SakanaAI
https://huggingface.co/spaces/SakanaAI/EvoVLM-JP

実際にラーメンの写真を入力して「この写真には何が写っていますか？」と質問したところ、「この写真にはラーメンが写っています」と正しく返答してくれました。

EvoLLM-JPとEvoVLM-JPの詳細は以下のリンク先で公開されています。

GitHub - SakanaAI/evolutionary-model-merge: Official repository of Evolutionary Optimization of Model Merging Recipes
https://github.com/SakanaAI/evolutionary-model-merge/