Googleの検索結果により多くのページをより素早く反映させるための「クロールバジェット」を管理する方法
Googleはインターネット上のあらゆるウェブサイトをクロールして検索インデックスを作成し続けていますが、各ウェブサイトの全ページをクロールしているわけではなく、ウェブサイトに応じてクロールするページの上限数を決めています。このページ上限数は「クロールバジェット」と呼ばれており、Googleの公式ドキュメントには「限りあるクロールバジェットを有効に活用するために確認するべき事項」がまとまっています。
大規模サイトのクロール バジェット管理 | Google 検索セントラル | ドキュメント | Google for Developers
https://developers.google.com/search/docs/crawling-indexing/large-site-managing-crawl-budget?hl=ja
Googleのクローラー(Googlebot)は、ウェブサイトの応答が迅速な状態が続いている場合はクロール頻度の上限を上げ、応答が遅くなった場合やエラーが返ってきた場合はクロール頻度の上限を下げています。また、Googlebotはウェブサイトの「更新頻度」「ページの品質」「関連性」をもとに、クロールバジェットを決定しています。
ウェブサイト内に同じコンテンツが複数存在している場合、クロールバジェットが無駄に消費されてしまいます。このため、どのコンテンツが正規コンテンツなのかを明示的に示す必要があります。正規コンテンツの明示方法は以下のページに詳しくまとまっています。
rel="canonical" などを利用して正規ページを指定する方法 | Google 検索セントラル | ドキュメント | Google for Developers
https://developers.google.com/search/docs/crawling-indexing/consolidate-duplicate-urls?hl=ja
検索インデックスに登録してほしくないページが存在する場合は、「robots.txt」を編集してクロールをあらかじめブロックすることでクロールバジェットの消費を抑えることができます。また、Googlebotは404ステータスコードや410ステータスコードが返ってきた際に当該ページのクロールを中断するため、各ステータスコードを正しく返すように設定することでクロールバジェットを節約できます。さらに、Googlebotは定期的にサイトマップを読み取っているため、クロールさせたいコンテンツをすべてサイトマップに含めておくことも重要です。
クロールバジェットにはクロールにかかる時間も影響しているため、サイトの応答速度を高速化することでクロール可能なページの数を増やすことができます。また、クロールの統計情報レポートを用いてクロールに関する問題を検証したり、URL検査ツールを用いて各ページがクロール可能か否かを検証することも有効な手段です。なお、ページに問題があった場合の対処方法は以下のページにまとまっています。
クロールの統計情報レポート - Search Console ヘルプ
https://support.google.com/webmasters/answer/9679690?hl=ja
・関連記事
Googleの検索アルゴリズムに関する内部文書が流出、Chromeのデータをページランク付けに利用するなどGoogleのウソが明らかに - GIGAZINE
Google検索のアルゴリズムに関する2500ページ超の内部文書が本物であることをGoogleが認める - GIGAZINE
Googleが規制を強化した「パラサイトSEO」とは何か? - GIGAZINE
Googleが「サイトの評判の不正使用ポリシー」の施行を開始し一部のサイトをリストから除外、CNNなど大手メディアのランキングが低下 - GIGAZINE
Googleが「人間のためではなくGoogle検索で上位に並ぶために作られた低品質なページ」の検索ランキングを下げる変更を発表 - GIGAZINE
・関連コンテンツ