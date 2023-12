2023年12月18日 12時30分 ソフトウェア

TikTokの親会社ByteDanceがこっそりChatGPTをパクっていたことが発覚、OpenAIは速攻でByteDanceアカウントをBAN

中国の大手IT企業であるByteDanceは以前、ユーザーの好みにピッタリな動画を見つけるTikTokのアルゴリズムで世界的なAIのリーディングカンパニーとなりましたが、OpenAIの台頭により生成AIの分野で後れを取っています。独自の生成AI「豆包(Doubao)」で巻き返しを図るByteDanceが、利用規約に違反する形でOpenAIのAPIを使用し、「Project Seed」という名称で大規模言語モデル(LLM)を開発していたことが内部文書から明らかになったと、IT系ニュースサイトのThe Vergeが報じました。



The Vergeが確認したByteDanceの内部文書によると、ByteDanceは「Project Seed」というコードネームで呼ばれている基盤的なLLMを開発するため、モデルのトレーニングや評価を含む開発のほぼ全ての段階で、OpenAIのAPIを使用していたとのこと。



このような行為はAI業界では御法度とされており、OpenAIの利用規約や、ByteDanceが直接アクセス権を購入していたMicrosoftの利用規約にも明らかに抵触していると、The Vergeは指摘しました。





問題の利用規約は、OpenAIが公開している「Business terms」という法人向け要項です。その中でOpenAIは、同社のAPIを「当社の製品やサービスと競合する人工知能モデルの開発に使用してはならない」と明記しています。



The Vergeは、ByteDanceの社内ツールであるLark上で従業員が「『data desensitization(データ感度の抑制)』によって証拠を『whitewash(上塗り)』する方法」について話し合っていたことを確認しました。また、悪用が横行していたため、Project Seedに携わる従業員は定期的にAPIのアクセス上限を超えていたとのことです。





Project Seedの開発初期には大胆にAPIを使用していたByteDanceでしたが、2023年後半には「モデル開発のどの段階でもGPTが生成したテキストを使用しないように」と開発チームに厳命していたこともわかっています。同社が、中国でDoubaoと呼ばれる独自のチャットボットを通じてProject Seedをリリースするための承認を規制当局から取り付けたのも、ちょうどこの頃でした。



しかし、その後もByteDanceはDoubao用のモデルのパフォーマンス評価など、利用規約に違反する方法でOpenAIのAPIを使い続けています。ByteDanceの内部事情を直接知っている関係者はThe Vergeに、「彼らは口では全てが合法であることを確認したいと言っていますが、本当は単に捕まりたくないだけです」と証言しました。





一方、The Vergeから内部文書を突きつけられたByteDanceは、「GPTが生成したデータは開発初期のProject Seedモデルの注釈付けに使用され、2023年の半ば頃にはByteDanceのトレーニングデータから削除された」と釈明。同社の広報担当者であるジョディ・セス氏は声明で、「ByteDanceは、GPTのAPIを使用するためにMicrosoftからライセンスを取得しました。中国以外の市場では製品や機能を強化するためにGPTを使用していますが、中国でのみ使えるDoubaoには自社開発モデルを使用しています」と述べました。



The Vergeがこの記事を公開した直後、OpenAIはThe VergeにByteDanceのアカウントを停止したことを通告しました。OpenAIは、ByteDanceによるAPIの使用は最小限だったものの、調査のためアカウントを停止する運びになったとしています。この調査でByteDanceがポリシーに従っていないことが明らかになり次第、OpenAIはByteDanceに使用方法を改めさせるか、正式にアカウントを停止する予定です。



The Vergeによると、おおっぴらに議論されることはないものの、競合製品の構築に役立つAIモデル、特にOpenAIのような独自性の高いものを流用するのは、中小企業にとっては一般的な慣行であるとのこと。OpenAIやMicrosoftはこれまでのところ違反者の摘発に乗り出していないため、そのようなAPIの使用は中小企業の間で「法的なグレーゾーン」とされています。



しかし、ByteDanceのような大企業がこうした手段に出るのは極めて異例だと取材を受けた関係者は口をそろえており、このことはProject Seedの開発チームが受けている「早く納品するように」とのプレッシャーがいかに大きいかを示唆していると、The Vergeは指摘しました。