ネットサービス

Google検索を支える「Googlebot」がAJAX・JavaScriptのクリックに対応、現実のユーザーっぽい挙動が可能に

By Mechanekton

Googlebot(グーグルボット)とは、Googleのウェブクロール用ロボットのことで、Googleの検索用インデックスに新しいページや更新されたページを次々とダウンロードして回収していくための一連のプログラムとプロセスのことで、Googlebotによってインターネット上の数十億のページを取得(クロール)するため、クローラとも呼ばれています。

しかし所詮はプログラムなので、例えばAJAXやJavaScriptを駆使しまくっているとなかなかうまくクロールしてくれず、AJAXなどもクロールできはするものの、人間が実際にクリックするのとは挙動が違うため、Google自身も「AJAX クロール: ウェブマスターおよびデベロッパー向けガイド」というのを出しており、その中でAJAXをより効果的にGooglebotにクロールさせるためのスキームを推奨せざるを得ないほどでした。

By okto

ところが、どうやら最近になってGooglbotがアップグレードされ、なんとAJAXやJavaScriptを任意に「クリック」しており、リアルなユーザーっぽい挙動を行っていることが判明したそうです。

Google Bot now crawls arbitrary Javascript sites
http://swapped.tumblr.com/post/23133779276/google-bot-now-crawls-arbitrary-javascript-sites


これはカナダのバンクーバーに住んでいるプロのソフトウェアデベロッパーであり、VPNソフトウェアとして有名な「Hamachi」開発者の一人でもあるswapped.ccのAlex Pankratov氏が発見したもの。

Alex Pankratov氏のブログによると、ある日、Apacheのログに以下のようなものを見つけたそうです。

66.249.67.106 ... "GET /ajax/xr/ready?x=clcgvsgizgxhfzvf HTTP/1.1" ...

これはswapped.ccのAJAXリクエストの一つであり、これが意味するのは、どこかのボットがページ上のJavaScriptを実行した、というもの。記録されているIPアドレス「66.249.67.106」を調べてみると、これは「crawl-66-249-67-106.googlebot.com」であり、このAレコードの一致からこれは確かに正真正銘本物のGooglebotだということが判明しました。

さらに解析を進めると、以下のようなログも発見。

66.249.67.106 ... "GET /content/halloc/index.html?&x=clcgvsgizgxhfzvf ...

これはメニューアイテムをクリックしたときのAJAXによるものであり、何を意味しているかというと、Googlebotが実際にユーザーがクリックする挙動をエミュレートしてサイトをクロールしており、クリックした先にあるページもクロールしまくることができるようになった、ということです。

これによって、Googleがこれまで推奨していたAJAXページをGooglebotに教えるためのescaped_fragmentを使ったGooglebot用URLを生成する必要がなくなった、というわけです。

今回のアップデートは地味ではあるものの、いよいよGooglebotの挙動がリアルな人間、本物のユーザーらしくなってきたということであり、今後のウェブサイト作成の自由度をアップさせてくれるはずです。

By Ѕolo

この記事のタイトルとURLをコピーする

・関連記事
Googleにサイトを全消去されたかわいそうなサイト - GIGAZINE

初代Googleのアルゴリズム解説 - GIGAZINE

Googleの検索ボットに偽装すると有料サイトが無料で閲覧できるらしい - GIGAZINE

「Google Webmaster Central」でGooglebotのテストができる - GIGAZINE

in メモ,   ネットサービス, Posted by darkhorse

You can read the machine translated English article here.