2022年06月29日 16時00分ネットサービス

Googleによるウェブページ収集は1ページ当たり最大15MBまで、検索順位を下げないために必要な対策は？

Googleは検索結果に表示するウェブサイトの情報を収集するために、ネット上に公開されている無数のウェブページの情報を「Googlebot」と呼ばれるクローラで収集しています。このGooglebotに関する公式ドキュメント(英語版)には「15MB以上のファイルをクロールする際は、先頭15MBまでしかクロールしない」という記載が含まれているのですが、この15MB制限の詳細についての解説が新たに公開されました。

Googlebot and the 15 MB thing | Google Search Central Blog | Google Developers
https://developers.google.com/search/blog/2022/06/googlebot-15mb

GoogleはGooglebotを用いて日々増え続けるネット上の膨大な数のウェブページをクロールしています。Googleはウェブサイトの管理者向けにGooglebotの仕様をまとめたドキュメントを公開しているのですが、このドキュメントに加わった「Googlebotは1ファイルにつき最大15MBまでしかクロールしない」という記述に関して多くの問い合わせが寄せられたとのこと。そこで、GoogleはGooglebotの15MB制限の詳細についての解説を新たに公開しました。

◆「15MB」とはウェブページのどの部分のサイズを示しているのか
Googlebotはページ上に読み込まれる全コンテンツではなく、ページのソースのみをクロールしています。15MBという制限はHTMLファイルなどの「対象ページのURLにアクセスした際に最初に読み込まれるファイル」を対象としたもので、ページ上に表示される画像やムービーといったコンテンツの合計サイズが15MBを超えた場合でも、HTMLファイルなどのサイズが15MBを超えていなければ15MB制限の対象にはなりません。

◆15MB制限はウェブサイトの管理者にどんな影響をもたらすのか
Googleによると、インターネット上に存在するHTMLファイルのサイズの中央値は30KBとのこと。このため、ほとんどのウェブサイトの管理者は15MB制限を気にする必要はありません。GoogleはHTMLファイルが15MBを超えているウェブサイトの管理者に対して、スクリプトを外部ファイルに移動するように推奨しています。

◆15MBを超えるファイルはどう扱われるのか
Googlebotはファイルの先頭から15MBまでをクロールし、それ以降はクロールしません。

◆15MB制限はGooglebotが画像やムービーを収集しないことを意味するのか
上述の通り、Googlebotは画像やムービーの実ファイルを収集しておらず、「<img src="https://example.com/images/画像ファイル.jpg">」のようなHTML形式で収集しています。

◆データURLはファイルサイズに含まれるのか
データURLと呼ばれる仕組みを利用すると、画像ファイルなどを文字列に変換してHTMLファイルに含ませることが可能です。このデータURLはGooglebotのクロール対象となるため、15MB制限に含まれます。

◆ウェブページのサイズを調査する方法は？
Googleは、ウェブページのサイズを調べる方法として、ウェブブラウザの開発者ツールを使う方法や、コマンドラインツール「cURL」を使う方法を紹介しています。例えば、Google Chromeでは「Ctrl＋Shift＋I」でデベロッパーツールを起動し、「Network」タブに切り替えた状態でウェブページを更新するとファイルサイズを調べられます。

・関連コンテンツ

2022年06月29日 16時00分00秒 in ネットサービス, Posted by log1o_hf

You can read the machine translated English article Web page collection by Google is up to 1….