TikTokの親会社ByteDanceがこっそりChatGPTをパクっていたことが発覚、OpenAIは速攻でByteDanceアカウントをBAN
by Solen Feyissa
中国の大手IT企業であるByteDanceは以前、ユーザーの好みにピッタリな動画を見つけるTikTokのアルゴリズムで世界的なAIのリーディングカンパニーとなりましたが、OpenAIの台頭により生成AIの分野で後れを取っています。独自の生成AI「豆包(Doubao)」で巻き返しを図るByteDanceが、利用規約に違反する形でOpenAIのAPIを使用し、「Project Seed」という名称で大規模言語モデル(LLM)を開発していたことが内部文書から明らかになったと、IT系ニュースサイトのThe Vergeが報じました。
ByteDance is secretly using OpenAI’s tech to build a competitor - The Verge
https://www.theverge.com/2023/12/15/24003151/bytedance-china-openai-microsoft-competitor-llm
The Vergeが確認したByteDanceの内部文書によると、ByteDanceは「Project Seed」というコードネームで呼ばれている基盤的なLLMを開発するため、モデルのトレーニングや評価を含む開発のほぼ全ての段階で、OpenAIのAPIを使用していたとのこと。
このような行為はAI業界では御法度とされており、OpenAIの利用規約や、ByteDanceが直接アクセス権を購入していたMicrosoftの利用規約にも明らかに抵触していると、The Vergeは指摘しました。
問題の利用規約は、OpenAIが公開している「Business terms」という法人向け要項です。その中でOpenAIは、同社のAPIを「当社の製品やサービスと競合する人工知能モデルの開発に使用してはならない」と明記しています。
The Vergeは、ByteDanceの社内ツールであるLark上で従業員が「『data desensitization(データ感度の抑制)』によって証拠を『whitewash(上塗り)』する方法」について話し合っていたことを確認しました。また、悪用が横行していたため、Project Seedに携わる従業員は定期的にAPIのアクセス上限を超えていたとのことです。
Project Seedの開発初期には大胆にAPIを使用していたByteDanceでしたが、2023年後半には「モデル開発のどの段階でもGPTが生成したテキストを使用しないように」と開発チームに厳命していたこともわかっています。同社が、中国でDoubaoと呼ばれる独自のチャットボットを通じてProject Seedをリリースするための承認を規制当局から取り付けたのも、ちょうどこの頃でした。
しかし、その後もByteDanceはDoubao用のモデルのパフォーマンス評価など、利用規約に違反する方法でOpenAIのAPIを使い続けています。ByteDanceの内部事情を直接知っている関係者はThe Vergeに、「彼らは口では全てが合法であることを確認したいと言っていますが、本当は単に捕まりたくないだけです」と証言しました。
一方、The Vergeから内部文書を突きつけられたByteDanceは、「GPTが生成したデータは開発初期のProject Seedモデルの注釈付けに使用され、2023年の半ば頃にはByteDanceのトレーニングデータから削除された」と釈明。同社の広報担当者であるジョディ・セス氏は声明で、「ByteDanceは、GPTのAPIを使用するためにMicrosoftからライセンスを取得しました。中国以外の市場では製品や機能を強化するためにGPTを使用していますが、中国でのみ使えるDoubaoには自社開発モデルを使用しています」と述べました。
The Vergeがこの記事を公開した直後、OpenAIはThe VergeにByteDanceのアカウントを停止したことを通告しました。OpenAIは、ByteDanceによるAPIの使用は最小限だったものの、調査のためアカウントを停止する運びになったとしています。この調査でByteDanceがポリシーに従っていないことが明らかになり次第、OpenAIはByteDanceに使用方法を改めさせるか、正式にアカウントを停止する予定です。
The Vergeによると、おおっぴらに議論されることはないものの、競合製品の構築に役立つAIモデル、特にOpenAIの製品のような独自性の高いものを流用するのは、中小企業にとっては一般的な慣行であるとのこと。OpenAIやMicrosoftはこれまでのところ違反者の摘発に乗り出していないため、そのようなAPIの使用は中小企業の間で「法的なグレーゾーン」とされています。
しかし、ByteDanceのような大企業がこうした手段に出るのは極めて異例だと取材を受けた関係者は口をそろえており、このことはProject Seedの開発チームが受けている「早く納品するように」とのプレッシャーがいかに大きいかを示唆していると、The Vergeは指摘しました。
・関連記事
TikTok親会社を解雇された元幹部が「中国共産党がデータにアクセスするためのバックドアがTikTokに仕込まれていた」と主張 - GIGAZINE
TikTokの親会社ByteDanceの社員がアメリカ人ジャーナリストのIPアドレスを調べて追跡しようとしていたことが判明 - GIGAZINE
中国がChatGPTのようなAIツールで後れを取っているのは検閲と地政学的な緊張による統制の強化が原因との指摘 - GIGAZINE
中国企業が続々とChatGPTっぽいスタイルの製品を開発中 - GIGAZINE
AIが中国で既にイラストレーターの仕事を奪い始めている、現場の悲鳴と実際にどのようにAIが用いられているのかをまとめたレポートが公開 - GIGAZINE
中国の規制当局がChatGPTのような生成型AIの規制法案を発表、AIが中国共産党への反対を唱えると企業が罪に問われる危険性 - GIGAZINE
・関連コンテンツ