Google検索を支える「Googlebot」がAJAX・JavaScriptのクリックに対応、現実のユーザーっぽい挙動が可能に
By Mechanekton
Googlebot(グーグルボット)とは、Googleのウェブクロール用ロボットのことで、Googleの検索用インデックスに新しいページや更新されたページを次々とダウンロードして回収していくための一連のプログラムとプロセスのことで、Googlebotによってインターネット上の数十億のページを取得(クロール)するため、クローラとも呼ばれています。
しかし所詮はプログラムなので、例えばAJAXやJavaScriptを駆使しまくっているとなかなかうまくクロールしてくれず、AJAXなどもクロールできはするものの、人間が実際にクリックするのとは挙動が違うため、Google自身も「AJAX クロール: ウェブマスターおよびデベロッパー向けガイド」というのを出しており、その中でAJAXをより効果的にGooglebotにクロールさせるためのスキームを推奨せざるを得ないほどでした。
By okto
ところが、どうやら最近になってGooglbotがアップグレードされ、なんとAJAXやJavaScriptを任意に「クリック」しており、リアルなユーザーっぽい挙動を行っていることが判明したそうです。
Google Bot now crawls arbitrary Javascript sites
http://swapped.tumblr.com/post/23133779276/google-bot-now-crawls-arbitrary-javascript-sites
これはカナダのバンクーバーに住んでいるプロのソフトウェアデベロッパーであり、VPNソフトウェアとして有名な「Hamachi」開発者の一人でもあるswapped.ccのAlex Pankratov氏が発見したもの。
Alex Pankratov氏のブログによると、ある日、Apacheのログに以下のようなものを見つけたそうです。
66.249.67.106 ... "GET /ajax/xr/ready?x=clcgvsgizgxhfzvf HTTP/1.1" ...
これはswapped.ccのAJAXリクエストの一つであり、これが意味するのは、どこかのボットがページ上のJavaScriptを実行した、というもの。記録されているIPアドレス「66.249.67.106」を調べてみると、これは「crawl-66-249-67-106.googlebot.com」であり、このAレコードの一致からこれは確かに正真正銘本物のGooglebotだということが判明しました。
さらに解析を進めると、以下のようなログも発見。
66.249.67.106 ... "GET /content/halloc/index.html?&x=clcgvsgizgxhfzvf ...
これはメニューアイテムをクリックしたときのAJAXによるものであり、何を意味しているかというと、Googlebotが実際にユーザーがクリックする挙動をエミュレートしてサイトをクロールしており、クリックした先にあるページもクロールしまくることができるようになった、ということです。
これによって、Googleがこれまで推奨していたAJAXページをGooglebotに教えるためのescaped_fragmentを使ったGooglebot用URLを生成する必要がなくなった、というわけです。
今回のアップデートは地味ではあるものの、いよいよGooglebotの挙動がリアルな人間、本物のユーザーらしくなってきたということであり、今後のウェブサイト作成の自由度をアップさせてくれるはずです。
By Ѕolo
・関連記事
Googleにサイトを全消去されたかわいそうなサイト - GIGAZINE
初代Googleのアルゴリズム解説 - GIGAZINE
Googleの検索ボットに偽装すると有料サイトが無料で閲覧できるらしい - GIGAZINE
「Google Webmaster Central」でGooglebotのテストができる - GIGAZINE
・関連コンテンツ
in メモ, ネットサービス, Posted by darkhorse
You can read the machine translated English article "Googlebot" that supports Google search ….