Googleが生成AIのトレーニングに自分のウェブサイトが使われないようにするオプションを発表、もう遅いという指摘も
Googleは対話型AIであるBardを開発しているほか、機械学習プラットフォームであるVertex AIの運営も行っており、生成AIモデルの開発においてウェブ上のコンテンツを利用しています。新たにGoogleが、自身のウェブサイトが生成AIモデルのトレーニングに利用されないようにするオプション「Google-Extended」を発表しました。
An update on web publisher controls
https://blog.google/technology/ai/an-update-on-web-publisher-controls/
Google adds a switch for publishers to opt out of becoming AI training data - The Verge
https://www.theverge.com/2023/9/28/23894779/google-ai-extended-training-data-toggle-bard-vertex
Your website can now opt out of training Google’s Bard and future AIs | TechCrunch
https://techcrunch.com/2023/09/28/your-website-can-now-opt-out-of-training-googles-bard-and-future-ais/
Google introduces Google-Extended to let you block Bard, Vertex AI via robots.txt
https://searchengineland.com/google-extended-crawler-432636
Googleは以前からBardやさまざまなAI製品の開発を行ってきましたが、2023年7月に初めて「オンラインで公開されたすべての情報」をGoogle製AIモデルのトレーニングに使用していることを明言しました。これに関してGoogleの広報担当者は、テクノロジー系メディアのThe Vergeに対して「Googleのプライバシーポリシーでは、Google翻訳のようなサービスの言語モデルをトレーニングするために、オープンウェブから一般公開されている情報を使用していると明らかにしてきました。今回の更新は、それにBardのような新しいサービスも含まれることを明確にしたものです」とコメントしています。
「オンラインで公開されたものすべてをAIのためにスクレイピングする」とGoogleが発表 - GIGAZINE
新たにGoogleは2023年9月28日のブログで、ウェブサイトがGoogle検索結果に表示されるようにしつつ、Googleの生成AIモデルのトレーニングに使用されないようにするオプションを発表しました。
Googleのヴァイスプレジデントを務めるダニエル・ロマン氏は、「私たちはAIの原則に従い、消費者プライバシーへの取り組みに沿って、責任を持ったAI開発に取り組んでいます。しかし、ウェブサイトの運営者からは新しい生成AIユースケースでコンテンツをどのように使用するのかについて、より多くのオプションとコントロールが必要だという声も寄せられています」と述べています。
今後、ウェブサイト運営者は検索エンジンのクローラーによるアクセスを制御する「robots.txtファイル」に以下の要素を含めることで、GoogleのBardやその他の生成AIモデルのトレーニングにウェブサイトが利用されるのを防ぐことが可能です。
User-agent: Google-Extended
Disallow: /
ロマン氏は、「Google-Extendedのようなシンプルでスケーラブルなコントロールをrobots.txtを通じて利用可能にすることは、透明性とコントロールを提供する重要なステップであり、AIモデルのすべてのプロバイダーが利用できるようにするべきだと考えています」と述べました。
テクノロジー系メディアのTechCrunchは、Googleがブログ記事で「train(訓練する)」という単語を使っていないことに着目しています。もちろん、「train」という単語がないとしてもGoogleがウェブ上のコンテンツをAIモデルのトレーニングに使用していることは明白ですが、Googleはそうした印象を与えるのを避けたがっているようです。
また、ブログ記事では「BardとVertex AIの生成APIの改良を支援する」「これらのAIモデルが、時間の経過と共により正確で有能なものになるよう支援する」といった言い回しが一貫して用いられています。こうすることにより、焦点を「Googleがコンテンツを利用するかどうか」ではなく、「ユーザーがGoogleを支援するかどうか」に移しているとTechCrunchは指摘しています。
TechCrunchは、今回の発表は一見すると「Googleがユーザーに対して倫理的なオプションを与えている」ように見えるものの、実際のところGoogleはすでにウェブ上のコンテンツをAIモデルのトレーニングに使用していると指摘。「今回の行動によって明らかになった真実は、Googleはウェブ上のデータへの自由なアクセスを悪用して必要な物を手に入れた後、同意と倫理的なデータ収集が優先事項であるかのように見せかけるため、事後的に許可を求めているということです。もし本当に同意と倫理的なデータ収集が優先事項なら、何年も前からこの設定があったでしょう」と述べ、Googleのやり口を批判しました。
・関連記事
「オンラインで公開されたものすべてをAIのためにスクレイピングする」とGoogleが発表 - GIGAZINE
GoogleのAI搭載検索エンジン「SGE」が大量虐殺のメリットをアピールし始めたとの報告 - GIGAZINE
Googleがニュース記事執筆用のAIツールをテスト中、一部メディア向けにデモを実施 - GIGAZINE
GoogleのチャットAI「Bard」で会話内容を共有するとGoogle検索に表示されてしまうことが発覚 - GIGAZINE
OpenAIが将来のAIモデルの改善に向けたウェブクローラー「GPTBot」を発表、同時にAIによる無断での学習を防ぐためのブロック方法も公開 - GIGAZINE
OpenAIがインターネット上のコンテンツ収集に用いるウェブクローラー「GPTBot」をブロックする試みが進行中 - GIGAZINE
Googleによるウェブページ収集は1ページ当たり最大15MBまで、検索順位を下げないために必要な対策は? - GIGAZINE
・関連コンテンツ