ネットサービス

Googleがウェブサイト管理に欠かせない「robots.txt」のインターネット標準化を推進


Googleやbingといった検索エンジンがさまざまなサイトの情報を検索できるのは、クローラーと呼ばれるボットが自動的にサイトを巡回するおかげ。このクローラーによるサイト巡回をサイトの管理者側で制御するために必要なのが「robots.txt」と呼ばれるテキストファイルです。20年以上使われながらも正式に標準化されていなかったrobots.txtについて、Googleがインターネット標準化にむけて動き出しています。

draft-rep-wg-topic-00 - Robots Exclusion Protocol
https://tools.ietf.org/html/draft-rep-wg-topic-00

Official Google Webmaster Central Blog: Formalizing the Robots Exclusion Protocol Specification
https://webmasters.googleblog.com/2019/07/rep-id.html

robots.txtを用いるロボット排除プロトコル(REP)は1994年、オランダのソフトウェアエンジニアであるマルティン・カスター氏によって考案されました。検索エンジンはクローラーを使って自動的にサイトを巡回して情報を収集しますが、サイトのサーバーに過度な負荷をかける可能性がありました。そこで、robots.txtというテキストファイルでクローラーの巡回を制御することでサーバーへの負荷を軽減し、なおかつ検索エンジンによるクローリングを最適化するというのがREPの仕組みです。

このrobots.txtは25年にわたって広く使われるようになり、2019年時点ではおよそ5億のウェブサイトが使用し、事実上の標準となりました。しかし、あくまでも有志によって策定されただけのrobots.txtのルールは正式な標準が存在せず、クローラーによってrobots.txtの解釈が異なるため、robots.txtで正しくクローラーの制御を定義することが難しくなってきたとのこと。

by Timothy Vollmer

そこで、Googleは現代においてREPがどのように採用されているかを文書化し、インターネットで利用されるさまざまな技術の標準を策定するInternet Engineering Task Force(IETF)にrobots.txtのドラフトを提出しました。このREPドラフトにはGoogleの開発者だけではなく、REPの生みの親であるカスター氏も名を連ねています。

Googleの考案した標準は、1994年に考案されたルールを基盤にしながら、robots.txtの解析とマッチングに関する未定義のシナリオを本質的に定義し、現代のウェブ事情に沿うように拡張。さらに、robots.txtの表記を統一するために、構文がよりわかりやすく定義されているとのこと。仕様の例として、Googleは以下の4点を公式ブログに挙げています。

1:HTTPだけではなく、FTPやCoAPなど、どのURIベースの転送プロトコルでもrobot.txtを使用可能。
2:適用される最大ファイルサイズを500KBに設定し、ファイルサイズを超えた内容は無視される。
3:リクエストがキャッシュされる期間は最長で24時間。Cache-Controlヘッダーを使うことでキャッシュ時間を変更することが可能。
4:robots.txtへサーバーの障害によってアクセスできない場合、許可されていないページはクロールされないようになる。

robots.txtの標準化は、robots.txtを利用するクローラーの開発者にとって大きな意味を持ちます。今回はあくまでもドラフトがIETFに提出された段階であり、まだ正式に標準化したとはいえませんが、標準化されれば開発者やサイトの管理者は統一された仕様のもとでrobots.txtを利用することが可能になります。

by Nuwandalice

なお、robots.txtのパーサーとマッチャーライブラリがオープンソース化され、GitHubで公開されています。

GitHub - google/robotstxt: The repository contains Google's robots.txt parser and matcher as a C++ library (compliant to C++11).
https://github.com/google/robotstxt

この記事のタイトルとURLをコピーする

・関連記事
サイト収益を上げるSEOテクニックの基礎まとめ - GIGAZINE

SEOが得意な人に朗報、SEOを仕事にしたい人をターゲットにした一風変わった求人方法 - GIGAZINE

30種類以上のSEOツールを無料公開している「DoctorSEO」のSEO診察室 - GIGAZINE

広告ブロック機能を取り込んだブラウザ「Brave」のパフォーマンスが機能改善で69倍に向上 - GIGAZINE

in ソフトウェア,   ネットサービス, Posted by log1i_yk

You can read the machine translated English article here.