ネットサービス

インターネット上のあらゆる情報を記録・保存する「インターネット・アーカイブ」はどのように運営されているのか?


インターネット・アーカイブ」は、カリフォルニア州サンフランシスコに本拠を置く非営利団体で、「ウェイバック・マシン」というウェブページのアーカイブ閲覧サービスを運営しています。そんなインターネット・アーカイブがどのように運営され、いかにして日々増え続ける大量のウェブサイトを保存しているのかについて、テクノロジーやビジネス系のウェブメディア「The Hustle」が報じています。

Inside Wayback Machine, the internet’s time capsule
https://thehustle.co/inside-wayback-machine-internet-archive

インターネット・アーカイブの建物はまるで古い宮殿のような階段を持ち、コリント式の柱がそびえる神殿か教会のような形をしています。一見するとおよそデジタルとは無縁に感じられるこの建物には、これまでにインターネット・アーカイブが収集してきた大量のウェブページの履歴が保存されています。

建物内部のコンピューターサーバーが立ち並ぶ部屋には青い光が明滅し、サーバー内には22年間にわたるインターネット上の歴史が詰め込まれています。数十億のウェブページ、個人のつぶやき、最新の記事、そしてビデオやネットミームといったものが、インターネット・アーカイブが収集するデータに含まれています。インターネットの世界はあまりにも広大で、記事作成時点では18億ものウェブページが存在しており、2~5年ごとにその量は倍増しているとのこと。

一方で、平均的なウェブページの掲載期間は100日ほどであり、多くのページは掲載してから5分もすれば忘れ去られてしまうようなものばかりです。誰かがアーカイブしなければこの世から消え去ってしまう多くのウェブページを保存することが、インターネット・アーカイブの使命であるといえます。

by Beatrice Murch

インターネット・アーカイブを運営しているのは、アメリカの実業家であるブリュースター・ケール氏。マサチューセッツ工科大学でコンピューターを学んだケール氏は、テキスト情報検索システムのWAISシステムを考案して1995年に1500万ドル(約17億円)売却し、財産を築きました。

その後、1996年からケール氏は個人的に「インターネットをバックアップ」する作業を開始します。インターネット・アーカイブと呼ばれるこのプロジェクトは、かつて世界で最も多くの書物を集積したといわれる、アレクサンドリア図書館にもたとえられています。

インターネット・アーカイブは「全ての知識にどこからでもアクセス可能」であることを目標にしており、6年にわたってケール氏は個人的に100億ものウェブページを収集してきました。その中には、無料ウェブサイト提供サービスのジオシティーズのコミュニティから映画のレビューサイトまで、多岐にわたるウェブページが含まれていたとのこと。


2018年の時点で、ウェイバック・マシンには3380億ものウェブページの履歴が保存されています。インターネット・アーカイブのコレクションはウェブページだけにとどまらず、書籍やレコード、ムービーに画像といったメディアデータに加えて、ソフトウェアなども含まれています。総データ量は40PB(ペタバイト:およそ4000万GB)を超えるほどになっており、ウェイバック・マシンで検索可能なデータはそのうちの63%だそうです。

40ペタバイトという量はあまりにも大きすぎるためピンと来ないかもしれませんが、これは地球上に生きた人類が文字の発明から現代までに書いてきた全ての文字よりも、わずかに少ない程度だとのこと。また、アメリカ最大の図書館であるアメリカ議会図書館に所蔵されているテキストを総計すると、およそ28TB(テラバイト)ほどだそうで、これでもインターネット・アーカイブの総データ量の0.1%にも及びません。


インターネット・アーカイブは毎週7000ものボットにインターネット上をクローリングさせ、大量のウェブページのコピーを収集しています。「スナップショット」と呼ばれるこれらのコピーは、一定の頻度でウェブページの状態を保存し、特定の時点におけるウェブページの履歴をアーカイブに蓄積させていくとのこと。

たとえば、アメリカのニュース専門放送局であるCNNウェブページについては、ウェイバック・マシンで18年分の20万7000にもおよぶスナップショットを検索することが可能。毎週5億もの新しいウェブページがインターネット・アーカイブに保存されていき、2000万ものWikipediaのページ、Twitterにおける2000万ものツイート、1億ものニュース記事が毎週新たに保存されていきます。

この膨大な作業は全て非営利で行われており、技術開発やソフトウェア開発、サーバーやボットを運用するマシンに運営費用など、全てが寄付によってまかなわれているとのこと。また、インターネット・アーカイブでは単にデータを収集・保管するだけでなく、インターネットの履歴に関する倫理的な問題解決にも取り組んでいるとしています。


インターネットは単純に計算して、1秒あたり70TBもの速度で成長しているそうで、いくら大規模なサーバーを保持しているインターネット・アーカイブでも全てを網羅することは不可能です。また、電子メールやクラウド上のデータといったプライベートなデータには、インターネット・アーカイブはアクセスしません。

ウェイバック・マシンの管理者であるマーク・グラハム氏は、「私たちは大量のウェブページをバックアップしますが、全てをバックアップすることはできません。どのウェブページをバックアップするのかという優先順位は、『インターネットとは何かという点を考える際に重要なもの』そして『有用かどうか』という基準で判断されます」と語りました。

ボットがウェブ上のサイトをどの程度深くまで保存するのかという点は、インターネット・アーカイブのチームが決定しています。特定のボットは700の「最もアクセスする人数が多いサイト」を重点的にクローリングしており、そのサイトにはYouTube・Wikipedia・Reddit・Twitterなどが含まれるとのこと。また、グラハム氏は「アーカイブの観点からすると、興味深いのは世界中の政府やNGO、ニュース関連のサイトです」と述べており、インターネット・アーカイブはおよそ600人にもおよぶ専門家やパートナーと協力して、独自の原則にもとづいたウェブページのバックアップを行っています。


ウェイバック・マシンのウェブページ検索サービスは、偽の情報で人々を惑わせる「フェイクニュース」が広がりやすい時代にとって、重要なツールになるとのこと。フェイクニュースが拡散された後に正しい情報に書き換えられ、「過去が修正される」ことがあったとしても、インターネット・アーカイブに保存されていれば拡散当時のウソが明らかになります。

インターネット・アーカイブは、2016年11月にアメリカ大統領選挙に当選したトランプ大統領の動きを注視しており、トランプ氏の当選後には「インターネット・アーカイブが収集したデータのコピーを、アメリカ政府の権力が及ばないカナダに設置する」という計画も発表しました。

インターネット・アーカイブがトランプ次期大統領によるインターネット検閲の強化に備えてカナダに新サーバーの構築を計画 - GIGAZINE


教会のような建築であるインターネット・アーカイブの建物は、内部も教会らしく作られています。舞台に向かう形で設置された席には、これまでインターネット・アーカイブで働いてきた従業員の人形がズラリと並べられています。これらの人形は、3年以上インターネット・アーカイブで働くと建てられることになっており、今後も永久に残され続けるとのこと。

人々の目線が向く方向には6基のサーバーが保護されて設置されているそうで、それぞれのサーバーは約6万ドル(約660万円)。10個のコンピューターから構成され、36の8TBドライブが搭載されているとのことで、20年前のブログ記事からTEDのトークといったウェブの歴史が詰め込まれています。ウェブページ自体が消え去ってしまっても、インターネット・アーカイブに保存されたデータはこれから先も、半永久的に残っていくとされています。

この記事のタイトルとURLをコピーする

・関連記事
インターネット上のあらゆる情報を記録・保存するインターネット・アーカイブは本当はどんな団体なのか? - GIGAZINE

「インターネットアーカイブ」のスキャンセンターで火災が発生、データ損失はなし - GIGAZINE

インターネット・アーカイブがトランプ次期大統領によるインターネット検閲の強化に備えてカナダに新サーバーの構築を計画 - GIGAZINE

「インターネット・アーカイブのウェイバックマシンが記録した過去のウェブサイトの情報」に証拠能力があると裁判所が認める - GIGAZINE

1970~90年代のレトロなアーケードゲームがブラウザでプレイし放題な「The Internet Arcade」 - GIGAZINE

in ネットサービス, Posted by log1h_ik

You can read the machine translated English article here.