2024年01月05日 19時00分ソフトウェア

OpenAIがAIのトレーニングにコンテンツを利用したメディアにライセンス料として年間100万ドルから500万ドルを支払いか

ChatGPTなどの生成AIを開発するOpenAIが、AIのトレーニングにニュースメディアのコンテンツを利用していることが問題視されており、一部メディアからは訴訟を提起されています。これに対応するため、OpenAIはニュースメディアに対して100万ドル(1億4500万円)から500万ドル(約7億2400万円)のライセンス料を支払う方向で協議を進めていると報じられました。

OpenAI Offers Publishers as Little as $1 Million a Year — The Information
https://www.theinformation.com/articles/openai-offers-publishers-as-little-as-1-million-a-year

OpenAI In Talks With Dozens of Publishers to License Content - Bloomberg
https://www.bloomberg.com/news/articles/2024-01-04/openai-in-talks-with-dozens-of-publishers-to-license-content

OpenAI’s news publisher deals reportedly top out at $5 million a year - The Verge
https://www.theverge.com/2024/1/4/24025409/openai-training-data-lowball-nyt-ai-copyright

OpenAI offering media outlets as little as $1 million to use news articles for AI models: report
https://nypost.com/2024/01/04/business/openai-offering-media-outlets-as-little-as-1-million-to-use-news-articles-for-ai-models-report/

2023年はOpenAIのChatGPTやGoogleのBard、MicrosoftのCopilotなど生成AIの躍進が目覚ましい年でした。これら生成AIのベースとなっているのが大規模言語モデル(LLM)で、LLMのトレーニングにはインターネット上に存在するさまざまなデータが利用されていることで知られています。しかし、AIのトレーニングに利用されるデータセットに有名作家の書籍などが含まれていることが問題になり、規制当局に厳格な対処を求める声も上がりました。

チャットAIのBardを開発しているGoogleも、当初はAIツールの開発を促進するため「オンラインで公開されたものすべてをAIのためにスクレイピングする」と発表していましたが、コンテンツクリエイター側からの反発を受け、生成AIのトレーニングに自分のウェブサイトが使われないようにするオプションを発表しています。

Googleが生成AIのトレーニングに自分のウェブサイトが使われないようにするオプションを発表、もう遅いという指摘も - GIGAZINE

報道機関などのメディアはコンテンツをAIのトレーニングに利用されることに反発しており、アメリカでの発行部数が第3位の高級日刊紙であるニューヨーク・タイムズは、生成AIのトレーニングに自社コンテンツが利用されないようにクローラーのアクセスをブロックしているだけでなく、OpenAIとMicrosoftを著作権侵害で訴えています。

大手日刊紙のニューヨーク・タイムズがOpenAIとMicrosoftを著作権侵害で提訴 - GIGAZINE

ニューヨーク・タイムズはOpenAIのChatGPTやMicrosoftのCopilotといった生成AIのベースとなるLLMのGPT-4が、ニューヨーク・タイムズのコンテンツをトレーニングに利用したことで「AIでニューヨーク・タイムズの表現スタイルを模倣した出力が可能になり、AIがニューヨーク・タイムズと直接競合するコンテンツを生み出すようになっている」と主張しています。

実際、ニューヨーク・タイムズが裁判所に証拠として提出した資料のひとつでは、ChatGPTのベースとなるLLMのGPT-4が出力した「2019年のピューリッツァー賞受賞者に関するテキスト」(左)が、「ニューヨーク・タイムズの記事」(右)をほとんどそのまま模倣した内容であると指摘されています。なお、テキストの赤文字部分がニューヨーク・タイムズの記事をそのまま流用している部分で、ほとんど丸ごとコピーしたような内容であることは一目瞭然です。

こういった反発を受け、OpenAIはアメリカの大手メディアと「コンテンツをライセンス供与してもらうための価格と条件を協議している」とも報じられていました。この報道によると、OpenAIはアメリカの大手新聞社でありUSAトゥデイの発行元でもあるGannettや、 The Wall Street Journalの発行元であるNews Corp、The Daily Beastの運営元であるIACなどとライセンス供与について協議しているそうです。OpenAIとメディアの協議には、OpenAI最大の投資家でもあるMicrosoftも参加していた模様。

Inside the News Industry’s Uneasy Negotiations With OpenAI - The New York Times
https://www.nytimes.com/2023/12/29/business/media/media-openai-chatgpt.html

なお、メディアの中には既にOpenAIからの支払いを受けることでコンテンツの利用を許可している企業もあります。PoliticoやBusiness Insiderなどのメディアを所有するドイツの大手メディア企業であるアクセル・シュプリンガーは、2023年12月にOpenAIと契約を結び、ChatGPTがPoliticoやBusiness Insiderから直接データを取得することを許可しています。AP通信もOpenAIがニュース記事に基づいてAIモデルをトレーニングすることを許可する契約を締結しました。

AP, Open AI agree to share select news content and technology in new collaboration: https://t.co/MnqRD3HBHe
— AP CorpComm (@AP_CorpComm) July 13, 2023

そして新たに、OpenAIがAIのトレーニングにニュースメディアのコンテンツを利用するために、ライセンス料として100万ドルから500万ドルの支払いを提示していることがThe Informationの報道により明らかになっています。この報道を取り上げた海外メディアのThe Vergeは「今回の報道は、OpenAIがAIのトレーニングに利用するデータにどの程度の資金を投じる予定かを示す最初の指標のひとつです」と報じました。

テクノロジー企業によるコンテンツ利用が問題となった同様の事例として、2019年にFacebookに導入された「ニュース」タブがあります。Metaはこのニュースタブで、ニュース記事のライセンス料として年間最大300万ドル(約4億3500万円)をメディアに支払ったと報道されました。また、Googleはカナダのニュース配信事業者が報道機関に使用料金を支払うよう定めた「オンラインニュース法」に基づき、カナダの報道機関に対して年間総額1億カナダドル(約110億円)を支払うことに同意しています。これらの事例から、「100万ドルから500万ドル」というライセンス料は既存の契約とほぼ同等の数字であるとThe Vergeは指摘。一方、Reddit上ではメディア側に支払われるライセンス料が少なすぎるという声が上がっていました。

Googleが年間1億ドルを支払ってニュース配信を再開することでカナダ政府と合意 - GIGAZINE

なお、OpenAIの年間売上は16億ドル(約2300億円)に到達しており、同社の月間売上は最大1億3000万ドル(約190億円)に到達していることも明らかになっています。2022年のOpenAIの年間売上はわずか2800万ドル(約40億円)だったため、売上は前年比で58倍に増加しました。さらに、OpenAIの2024年の年間売上は50億ドル(約7200億円)に到達すると予想されているため、OpenAIがメディアに支払う予定のライセンス料は、同社にとってそれほど痛手ではないと容易に予想できます。

なお、Appleもニュースメディアのコンテンツを利用してAIをトレーニングするために、複数メディアと5000万ドル(約72億4000万円)以上の複数年契約について話し合ったことが報じられています。

Appleがニュース記事で生成AIをトレーニングするためさまざまなメディアと5000万ドル以上の複数年契約について話し合ったことが発覚 - GIGAZINE