ネットサービス

複数の大手ニュースサイトがAppleのパーソナルAI「Apple Intelligence」をトレーニングするために使用されるクローラーをブロックしていることが明らかに


生成AIのトレーニングに使用するコンテンツは、ボットを使ってウェブ上からスクレイピングすることがありますが、これは度々問題視されています。AppleもAIのトレーニングに使用するコンテンツをスクレイピングしているものの、複数のニュースサイトがこのクローラーをブロックしている実態が明らかになりました。

Many of the biggest websites opted out of Apple Intelligence training
https://9to5mac.com/2024/08/29/apple-intelligence-training-opt-outs/


Why top publishers are opting out of Apple Intelligence AI data scraping | iThinkDifferent
https://www.ithinkdiff.com/apple-intelligence-data-scraping-publishers/

Websites Increasingly Tell Apple and AI Companies to Stop Scraping - MacStories
https://www.macstories.net/linked/websites-increasingly-tell-apple-and-ai-companies-to-stop-scraping/

Top Media Outlets Block Apple’s AI Data Collection • iPhone in Canada Blog
https://www.iphoneincanada.ca/2024/08/29/news-outlets-block-apple-ai-data-collection/

Apple wants to scrape content for Apple Intelligence training — but few publishers have agreed terms to let it happen | iMore
https://www.imore.com/apple/apple-wants-to-scrape-content-for-apple-intelligence-training-but-few-publishers-have-agreed-terms-to-let-it-happen

Apple blocked from training Apple Intelligence on several publishing websites — here’s what we know | Tom's Guide
https://www.tomsguide.com/ai/apple-blocked-from-training-apple-intelligence-on-several-publishing-websites-heres-what-we-know

Websites opt out of Apple AI scraping, signaling 'conflict zone' | Cult of Mac
https://www.cultofmac.com/news/websites-opt-out-of-apple-ai-scraping

New York Times and more block Apple Intelligence training
https://appleinsider.com/articles/24/08/29/big-name-publishers-are-refusing-to-let-apple-intelligence-train-on-data

Apple's AI training faces backlash as major publishers opt out - PhoneArena
https://www.phonearena.com/news/apple-ai-training-publishers-opt-out_id162000

生成AIはウェブ上のコンテンツをスクレイピングしてトレーニングに利用しています。著作権で保護されたコンテンツもAIのトレーニングに利用しているため、この手法は度々問題視されてきました。


AppleのパーソナルAIであるApple Intelligenceもトレーニングのためにウェブ上のコンテンツをスクレイピングしていますが、コンテンツパブリッシャーはrobots.txtファイルに指示を記載することで、自身のコンテンツがスクレイピングされることを明示的にオプトアウト(ブロック)することが可能です。

Appleはこのオプトアウト機能「Applebot-Extended」を2024年5月に発表しており、Appleがウェブ上のコンテンツをスクレイピングするのに使用しているクローラーの「Applebot」に関する情報がまとめられている以下のページにも情報が記載されています。なお、Applebotは元々は音声アシスタントのSiriや検索機能のSpotlightをトレーニングするために利用されていたクローラーで、2015年に登場しました。Appleは近年、Apple IntelligenceをトレーニングするためにApplebotを再利用するようになっています。

About Applebot - Apple Support
https://support.apple.com/en-us/119829


このApplebotのオプトアウト機能を、FacebookやInstagramといったMetaの運営する大手SNSや、The New York TimesやThe Atlanticといった大手ニュースサイトが利用していることが明らかになりました。

Applebotをオプトアウトしているか否かは一般公開されているrobots.txtファイルをチェックすることで誰でも確認できます。海外メディアのWIREDが調査したところ、Facebook、Instagram、Craigslist、Tumblr、The New York Times、The Financial Times、The Atlantic、Vox Media、USA Today、Condé NastなどがApplebotをブロックしていることが明らかになりました。WIREDは「トラフィックの多いウェブサイトの約6~7%がApplebotをブロックしている」と報じています。

他にも、データジャーナリストであるベン・ウェルシュ氏の独自調査により、アメリカを拠点とする英語ベースメディアの1167件中294件(約4分の1)がApplebotをブロックしていることが明らかになっています。これに対して、OpenAIのクローラーをブロックしている企業は約53%、Googleのクローラーをブロックしている企業は約43%だそうです。

なお、AppleはAIをトレーニングするために複数のメディアと契約を結んでいることが報じられているため、Applebotをブロックしているのはこの契約を結んでいない企業およびメディアであると推察されます。

Appleがニュース記事で生成AIをトレーニングするためさまざまなメディアと5000万ドル以上の複数年契約について話し合ったことが発覚 - GIGAZINE


AIによる盗作などをチェックするためのツールを開発するOriginality AIの創設者であるジョン・ギルハム氏は、「世界最大の出版社の多くは明らかに戦略的なアプローチを取っています。パートナーシップ契約が締結されるまでデータを保留するなど、ビジネス戦略が関係しているケースもあると思います」と語り、企業側はAppleから金銭を受け取るためにApplebotを拒絶している可能性があると指摘しています。

なお、AppleがYouTubeの動画字幕をAIのトレーニングに使用していることが指摘されていますが、AppleはApple Intelligenceを含む製品版AIのトレーニングには使っていないと反論しています。

AI学習にYouTubeの字幕を使用したとの報道にAppleが「Apple Intelligence」を含む製品版AIには使っていないと反論 - GIGAZINE

この記事のタイトルとURLをコピーする

・関連記事
「オンラインで公開されたものすべてをAIのためにスクレイピングする」とGoogleが発表 - GIGAZINE

AmazonはGitHubをスクレイピングしてAIモデルをトレーニングするグレーな方法を採用していることが明らかに - GIGAZINE

AI学習にYouTubeの字幕を使用したとの報道にAppleが「Apple Intelligence」を含む製品版AIには使っていないと反論 - GIGAZINE

Anthropicによるサイトのスクレイピングを防ぐrobots.txtの内容がすでに古くなっているという指摘、クローラーは24時間で100万アクセスしている事例も - GIGAZINE

NVIDIAがAIを訓練するために1日で人間の一生分の動画を集めているとの指摘 - GIGAZINE

・関連コンテンツ

in ネットサービス, Posted by logu_ii

You can read the machine translated English article here.