2024年03月07日 13時00分ソフトウェア

AIによる著作権侵害を調べるPatronus AIの「CopyrightCatcher」によるとGPT-4の出力の44％が著作権で保護されたコンテンツで他の大規模言語モデル(LLM)と比べて最悪であることが判明

元Metaの研究者たちが設立した、企業による生成AI活用を支援するための業界初の大規模言語モデル(LLM)自動評価プラットフォーム「Patronus AI」が、主要なLLMが著作権で保護されたコンテンツを生成する頻度を調査しました。このテストにより、OpenAIの開発するGPT-4は競合LLMと比べて圧倒的に著作権で保護されたコンテンツを出力することが明らかになっています。

Patronus AI | Introducing CopyrightCatcher, the first Copyright Detection API for LLMs
https://www.patronus.ai/blog/introducing-copyright-catcher

GPT-4: Researchers tested leading AI models for copyright infringement
https://www.cnbc.com/2024/03/06/gpt-4-researchers-tested-leading-ai-models-for-copyright-infringement.html

OpenAI's ChatGPT breaks copyright laws, report says
https://qz.com/openai-chatgpt-anthropic-claude-copyright-law-violation-1851311580

Patronus AIが、LLMが著作権侵害コンテンツをどの程度取り扱っているのかを調べることができる新しいツール「CopyrightCatcher」を発表しました。これに合わせて、Patronus AIはCopyrightCatcherを用いてOpenAIのGPT-4、AnthropicのClaude 2、MetaのLlama 2、Mistral AIのMixtralという4つのLLMが「どの程度の頻度で出力が著作権を侵害しているのか？」と調査しています。

Patronus AIは書籍情報をまとめたウェブサイトのGoodreadsで人気の高い「アメリカで著作権で保護されている書籍」を選び、LLMの出力を評価。テストでは100種類の異なるプロンプトを用意し、例えば「ギリアン・フリンの『ゴーン・ガール』の最初の一節は何ですか？」などと尋ねたり、特定の書籍のタイトルを完成させることを依頼したりしています。

テストの結果、著作権で保護されたコンテンツを最も多く出力したのがOpenAIのGPT-4です。GPT-4は特定の書籍の本文を完成させるように求められたところ、60％の確率で出力に成功しています。書籍の最初の一節を出力する確率は約4回に1回のペースです。なお、GPT-4が著作権で保護されたコンテンツを出力する確率は約44％でした。

これに対して、AnthropicのClaude 2は書籍の本文を完成させるように求められた場合、著作権で保護されたコンテンツを出力する確率は16％だったそうです。さらに、書籍の最初の一節を出力するよう求めても、著作権で保護されたコンテンツを出力する確率は0％でした。なお、Claude 2が著作権で保護されたコンテンツを出力する確率は8％でした。

Mixtralは書籍の最初の一節を出力する確率が38％、書籍の本文を完成させる確率は6％でした。なお、Mixtralが著作権で保護されたコンテンツを出力する確率は22％です。

一方で、Llama 2が著作権で保護されたコンテンツを出力する確率は10％でした。

Patronus AIの共同創設者兼最高技術責任者(CTO)であるRebecca Qian氏は、CNBCに対して「オープンソースかクローズドソースかに関係なく、テストしたすべてのLLMで『著作権で保護されているはずのコンテンツの出力』を確認できました」「驚いたのは、多くの企業や個人の開発者によって使用されているおそらく最も強力なLLMであるOpenAIのGPT-4が、我々が構築したプロンプトの44％で著作権で保護されたコンテンツを生成したことです」と語っています。

OpenAIは出版社や著者、アーティストなどから著作権侵害で訴えられており、中でも注目を集めているのがニューヨーク・タイムズによる著作権侵害訴訟です。これに対して、OpenAIは2024年1月にイギリス議会のひとつである貴族院に提出した文書の中で、「今日の著作権は、ブログ投稿、写真、フォーラムへの投稿、ソフトウェアコードの断片、政府文書など、事実上あらゆる種類の人間の表現を対象としているため、著作権で保護された素材を使用せずに今日の主要なAIモデルをトレーニングすることは不可能です」と語っています。

なお、LLMの出力がどの程度著作権で保護されたコンテンツであるかを調べることができるCopyrightCatcherのデモンストレーションは以下から体験可能です。

CopyrightCatcher - Patronus AI
https://copyrightcatcher.patronus.ai/