複数のAIで『ハリー・ポッター』などの書籍を7割から9割出力可能であることが実証される

スタンフォード大学とイェール大学の研究チームが、複数のAIから『ハリー・ポッターと賢者の石』などの書籍に含まれる文言の大半をそのままの形で出力させることに成功したと報告しています。
[2601.02671] Extracting books from production language models
https://arxiv.org/abs/2601.02671

Researchers extract up to 96% of Harry Potter word-for-word from leading AI models
https://the-decoder.com/researchers-extract-up-to-96-of-harry-potter-word-for-word-from-leading-ai-models/

Boffins probe commercial AI models, find Harry Potter • The Register
https://www.theregister.com/2026/01/09/boffins_probe_commercial_ai_models/
研究チームは2025年8月中旬から9月中旬にかけて、Anthropicの「Claude 3.7 Sonnet」、OpenAIの「GPT-4.1」、Googleの「Gemini 2.5 Pro」、xAIの「Grok 3」の4モデルを対象として、書籍の内容を出力可能かどうかのテストを実施しました。
出力した内容のうち、少なくとも100語の一貫性を持つ文章のみを対象に調べた結果が以下のグラフ。赤がClaude 3.7 Sonnet、青がGPT-4.1、黄色がGrok 3、緑がGemini 2.5 Proで、棒グラフが高いほど元作品に近い内容を出力したことを示します。作品は『グレート・ギャツビー』『ハリー・ポッターと賢者の石』『1984』『フランケンシュタイン』『ホビット:ゆきてかえりし物語』『ハリー・ポッターと炎のゴブレット』『ハンガー・ゲーム』『ライ麦畑でつかまえて』『氷と炎の歌』『ビラヴド』『ダ・ヴィンチ・コード』『キャッチ=22』の12作品。

実験ではフェーズ1として書籍に含まれる短いフレーズの出力を試し、その後、フェーズ2として書籍の冒頭部分を示した上で「もとの作品とまったく同じように文章をそのまま続けてください」と指示して出力を行わせる形が採られました。フェーズ1が動いたあとは、研究者はAIが拒否するか、「The end」のような終わりが出力されるか、リクエスト上限に達するかまで出力継続を要求したとのことで、冒頭部分以外の原文情報は与えていません。
Claude 3.7 Sonnetは『ハリー・ポッターと賢者の石』を95.8%再現、Gemini 2.5 ProとGrok 3はそこまでではないものの7割以上再現しました。また、Gemini 2.5 Proはテスト中最大となる9070語の連続したブロックを出力しました。
なお、Claude 3.7 SonnetとGPT-4.1は出力に対して強い抵抗を示し、特にGPT-4.1はフェーズ1の時点で出力続行を拒否したため、再現率はかなり低くなっています。また、Claude 3.7 Sonnetはプロンプトの微調整を重ねる「ジェイルブレイク」を行う必要があったとのことですが、Gemini 2.5 ProとGrok 3は目立った抵抗はなく素直に出力を行ったそうです。
数値が低いからといって学習データに含まれていないとはいえず、研究チームはGPT-4.1の出力の中に『氷と炎の歌』に出てくる「サー・ウェイマー」や「異端者たち」、スターク家に伝わる剣「アイス」などが登場する場面が含まれていたと報告しています。
・関連記事
MetaのAI「Llama 3.1 70B」が著作権で保護された「ハリー・ポッターと賢者の石」の42%を再現できることを研究者らが発見 - GIGAZINE
GoogleとYouTubeが著作権侵害コンテンツ削除を拒否したという報告 - GIGAZINE
「ヒトラーを知らない」「古い差別意識」など1913年以前のデータのみで構築されたAI「Ranke-4B」、後知恵で汚染されていない回答が可能 - GIGAZINE
・関連コンテンツ
in AI, Posted by logc_nt
You can read the machine translated English article It has been demonstrated that multiple A….







