「オープンソースは脅威」「勝者はMeta」「OpenAIは重要ではない」などと記されたGoogleのAI関連内部文書が流出



2022年から2023年にかけて、OpenAIが「GPT-4」を、Metaが「LLaMA」を、Stability AIが「StableLM」を発表するなど、大規模言語モデル(LLM)の開発競争が1年間で激化しました。同様に大規模言語モデルの「LaMDA」を開発してしのぎを削ろうとするGoogleが、競合他社を分析し、オープンソースの脅威について詳細を記した内部資料が、Discordの公開サーバーから流出しました。



Google "We Have No Moat, And Neither Does OpenAI"

https://www.semianalysis.com/p/google-we-have-no-moat-and-neither



対話型AIの知名度を爆発的に高めた「ChatGPT」を開発するOpenAIは、対話型AIの分野で頂点に立っているとも分析できますが、Googleは「GoogleおよびOpenAIは次の軍拡競争に勝てる立場にない」としています。Google、OpenAI、Metaなどの企業がシェアを巡って争う中、一人勝ちするのは「オープンソース」だというのがGoogleの分析です。





2023年3月、前月にMetaが発表したばかりの大規模言語モデル「LLaMA」のデータが突如としてインターネット上に流出し、誰でもダウンロード可能な状態になりました。この出来事についてGoogleは「コミュニティは自分たちが与えられたものの重要性をすぐに理解しました。この後、革新的な技術が次々と生み出され、1ヶ月が経過した頃にはさまざまなアイデアが積み重なっていました」と述べ、重要なモデルが人々の手に渡ったことにより開発速度が爆発的に上昇したことを指摘しています。



さらに、LLaMA-65Bの登場からほどなくして、LLaMAをしのぐほどの性能を誇るオープンソースの大規模言語モデル「Vicuna-13B」が公開されました。このモデルはChatGPTでのやり取りやプロンプトをシェアできる拡張機能「ShareGPT」のデータに基づき、LLaMAのベースモデルを微調整することにより高品質なパフォーマンスを実現したもの。各種対話型AIの応答品質評価では、ChatGPTを100%とした場合、LLaMAが68%、Alpaca 7Bが76%だった一方でVicuna-13Bの品質は92%に迫っていることが分かっています。



こうしたオープンソースの大規模言語モデルが登場したことについて、Googleは「私たちのモデルは品質という点ではまだ若干の優位性を持っていますが、その差は驚くほど早く縮まっています。オープンソースのモデルは、より速く、よりカスタマイズ可能で、よりプライベートで、1ポンド当たりの性能は優れています。私たちが1000万ドルと5400億のパラメーターでなんとかやっていけているところを、Vicuna-13Bは100ドルと130億のパラメーターでやってのけているのです。しかも、数カ月ではなく、数週間でやってのけました。このことは、私たちにとっても大きな意味を持ちます」と指摘。



さらに「低コストで一般の人々の参加を可能にしたことで、大手企業の追随を許さない勢いを伴い、世界中の個人や組織からアイデア出しと反復が活発に行われるようになりました。オープンソースの最近の成功を後押ししたイノベーションは、私たちが今も苦労している問題を直接解決します。彼らの仕事にもっと注意を払うことで、車輪の再発明を避けることができます」と続けました。



モデルがオープンソースとして公開されたことによる効果は特に画像生成の分野で顕著であり、いち早くオープンなモデルを採用したStable Diffusionは、そうしなかったDall-Eとは異なり、製品の統合やマーケットプレイス、ユーザーインターフェースなどの革新的な技術が生まれました。





Googleは「同じことがLLMに起こるかどうかはまだわかりませんが、大まかな構造的要素は同じです。無料かつ無制限の代替品が有料品と同等の品質である場合、人々は有料のモデルにお金を払うことはないでしょう。自分たちの付加価値はどこにあるのかを考えるべきです。私たちの最善の望みは、Googleの外で他の人々が行っていることから学び、協力することです。私たちは、サードパーティ統合を可能にすることを優先すべきです」とし、これまでやってきたようなクローズドな環境を見直すべきだと文書に記しています。





オープンソースの脅威に加え、わずかなコストで効率的に言語モデルを扱えるようにする調整機能「LoRA」についてもGoogleは「無視するべきではない」と危惧しています。Googleは「この技術はGoogleの最も野心的なプロジェクトに直接影響を与えるにもかかわらず、Google内部で十分に活用されていません。LoRAのアップデートは、最も一般的なモデルサイズで非常に安く作成することができます。つまり、アイデアさえあれば誰でもアップデートを作成し、配布することができるのです。これらのモデルによる改善のペースは、私たちの最大のバリエーションでできることを大きく上回っており、最高のものはすでにChatGPTとほとんど見分けがつかないほどになっています。地球上で最も大きなモデルを維持することに集中することは、実は私たちを不利な立場に追いやることになります。オープンソースと直接競合するのは敗者の提案です」と指摘しました。



自社技術を秘密にするか、オープンにするかはGoogleにとって常につきまとう命題だったそうですが、LLMでの最先端の研究が手頃な価格で受けられるようになった昨今、テクノロジーにおける競争優位性を維持することはさらに難しくなっています。自分たちの秘密を固く守るという選択もできる一方で、互いに学び合うこともできる「オープンソース化の選択肢を採るか否か」という現状をGoogleは勘案している様子。





自社のモデルが流出してしまったMetaについて、Googleは「逆説的ですが、この中で明らかに勝者なのはMetaです」と指摘。これは、流出はしてしまったものの、オープンソースのイノベーションのほとんどはMetaのアーキテクチャの上で起こっているので、Metaがその技術を直接自社の製品に取り入れることが可能なため。



競合となるOpenAIについては、Googleは「オープンソースに対する姿勢においてGoogleと同じ間違いを犯している」とし、「Googleがオープンソースの選択肢を取ることで、OpenAIが姿勢を変えない限り、先手を打つことができます」と主張。こうした事例からも、Googleは「オープンソースコミュニティのリーダーとしての地位を確立し、議論を無視するのではなく、協力することで主導権を握るべきです」という意思を示しました。