ネットサービス

インターネットアーカイブはどんな設備でどのように運営されているのか?


インターネットアーカイブはウェブサイトやデジタルメディアを保管を行う非営利団体で、ウェブページのアーカイブ閲覧サービス・Wayback Machineを運営しています。そんなインターネットアーカイブの設備や運営方法について、IT系メディアのHackerNoonがまとめました。

The Long Now of the Web: Inside the Internet Archive’s Fight Against Forgetting | HackerNoon
https://hackernoon.com/the-long-now-of-the-web-inside-the-internet-archives-fight-against-forgetting

インターネットアーカイブの本部はアメリカ・カリフォルニア州リッチモンドに置かれ、もともとクリスチャン・サイエンスの教会として使われていた建物を利用しています。新古典主義の柱に囲まれた物々しい雰囲気の建物ですが、この中にはWayback Machineが保持する212PB(ペタバイト)ものデータが保管されています。

by Wikimedia Commons

◆ストレージ
インターネットアーカイブの心臓部ともいえる存在が、専用の巨大ストレージラックであるPetaBoxです。2000年代初頭に大手企業が提供していたエンタープライズ向けストレージは、高速なデータ通信が要求される銀行や証券取引所向けに設計されており、法外な価格と電力を必要としました。しかし、インターネットアーカイブの要件は高密度・低コスト・低消費電力だったため、自分たちの用途に合ったストレージを独自に作成することにしたとのこと。

インターネットアーカイブの創設者であり、スーパーコンピューター企業・Thinking Machinesの初期エンジニアでもあったブリュースター・ケール氏は、高性能なRAIDアレイではなく一般消費者向けグレードの製品を使ってPetaBoxを構築しました。高価なRAIDコントローラを使わずに、データの冗長性はハードウェアではなくソフトウェアで処理するという設計哲学は、当時としては革新的なものだったとHackerNoonは指摘しています。

2004年時点のPetaBoxはラック当たりの容量が100TBほどでしたが、2010年にはラック当たり480TBまで増加し、2024~2025年に使われている世代では1.4PBに到達しています。それにもかかわらずラック当たりの消費電力は当初から6~8kW程度で安定的に推移しており、ドライブ当たりの容量が飛躍的に増加したことから、インターネットアーカイブ全体で管理するドライブ数もほぼ一定に保たれているそうです。


インターネットアーカイブのインフラにおける特徴のひとつに、「涼しい気候で知られるリッチモンドの空気を冷却に利用し、余分な熱は建物の暖房として再利用する」という独自の熱管理システムがあります。この設計上の選択によって施設の消費電力を大幅に削減し、限られた資金を電気代ではなくドライブ購入などに割り当てられるようになっています。

また、インターネットアーカイブでは常時2万8000台ものドライブが稼働しているため、しばしばドライブの故障に見舞われます。一般企業であれば即座に故障したドライブの交換が必要ですが、インターネットアーカイブではデータを複数のマシンや地理的に離れたデータセンターにミラーリングして冗長性を保っているため、一定数のドライブが故障したとしても問題が起きないようになっています。この低メンテナンス設計により、非常に小規模なチームで大手テクノロジー企業に匹敵する規模のストレージを管理しているとのこと。


◆クローラー
ウェブページのアーカイブは受動的なプロセスではなく、クローラーというソフトウェアを使ってさまざまなウェブページを巡回し、見つけたものをコピーする必要があります。インターネットアーカイブの場合、その大部分においてJavaベースのオープンソースクローラーであるHeritrixを使用してきました。

Googleなどが使用するクローラーはテキスト抽出に重点を置くのに対し、Heritrixは画像やスタイルシート、埋め込みオブジェクトといったウェブページの正確な状態をキャプチャします。Heritrixはページの内容だけでなくサーバーとブラウザ間で行われるHTTPヘッダも記録しており、このメタデータはウェブページがいつキャプチャされたのかやどのサーバーから配信されたのかといった重要な情報を含みます。

しかし、Heritrixが構築された時代は静的なHTMLファイルやハイパーリンクで構築されたウェブページが大多数でしたが、やがてソーシャルメディアフィードやJavaScriptを多用する動的なウェブページが増加。これに伴ってインターネットアーカイブは、キャプチャ前にJavaScriptを実行したりメニューを開いたりしてユーザーが見たままのウェブページをキャプチャするBrozzlerや、ブラウザの自動化機能を利用してコンテンツを読み込むUmbraなどを利用するようになっています。

また、インターネットアーカイブには好きなウェブページのURLを入力してアーカイブを保存する「Save Page Now」という機能もあります。HackerNoonはこの機能によってクロールが民主化され、ジャーナリストや研究者、ファクトチェッカーにとって不可欠なツールとなっていると評価しています。


◆資金繰り
インターネットアーカイブは世界で最も訪問者数が多いウェブサイトを運営していますが、GoogleやMetaといった大手テクノロジー企業とは比較にならないほど少ない予算でやりくりしています。2024年の年間収益は2680万ドル(約42億4000円)で、支出は2350万ドル(約37億2000万円)でした。

インターネットアーカイブは広告やサブスクリプションに依存しておらず、主な収益源はユーザーから募る5~10ドル(約800~1600円)の寄付とさまざまな慈善団体からの助成金です。また、以下のようなアーカイブ化およびデジタル化に関する有料サービスも展開しています。

・Archive-It:図書館や大学が独自のウェブアーカイブを構築できるようにするサービス。サブスクリプション料金は年間2400ドル(約40万円)で100GBからとなっており、年間1万2000ドル(約190万円)で1TBまで拡張できます。このサービスは年間数百万ドル(約数億円)の収益を生み出し、インターネットアーカイブを支えています。

・デジタル化サービス:インターネットアーカイブは、書籍やその他のメディアをスキャンするデジタル化センターを運営しています。専用ブックスキャナーの「Scribe」は書籍を非破壊的にスキャンすることが可能で、製本書籍のデジタル化は1ページ当たり0.15ドル(約24円)から受け付けています。

・Vault:比較的新しいサービスであるVaultは、デジタル保存ストレージを1回限りの料金で提供するというものです。追加の年間ストレージ料金やデータ送信コストは発生せず、要件や予算に応じて柔軟なカスタマイズが可能とのこと。


◆法的争い
インターネットアーカイブの使命は「あらゆる知識への普遍的なアクセス」ですが、アーカイブ対象がウェブページにとどまらず書籍・音楽・ソフトウェアへと拡大するにつれ、著作権を巡る法的争いに巻き込まれることも増えています。たとえば2020年、インターネットアーカイブは電子書籍の貸出サービスを拡大しましたが、大手出版社グループはこれを著作権侵害であるとして訴え、インターネットアーカイブは敗訴しています。

インターネットアーカイブが電子書籍の貸出をフェアユースだと主張した裁判で再び敗訴 - GIGAZINE


1898年~1950年代に作成されたレコードを保存・公開する「Great 78」というプロジェクトでも、インターネットアーカイブは大手レコード会社から訴訟を起こされています。2025年9月には和解に至りましたが、この影響で著作権で保護された多くの音源へのアクセスが削除されました。

インターネット・アーカイブVSレコード会社の訴訟は損害賠償請求額が約1000億円まで拡大、一方で和解の動きも - GIGAZINE


一方でインターネットアーカイブは2025年7月、アメリカ政府の刊行物を保管するFederal Depository Library(連邦政府刊行物寄託図書館)に指定されました。これによりインターネットアーカイブはアメリカ政府の刊行物を収集・保存し、人々にアクセス権を与える法的権限を得ました。連邦政府刊行物寄託図書館に指定されたことで、コレクションの一部に極めて重要な法的保護層が提供されたとHackerNoonは指摘しています。

Internet Archiveがアメリカの連邦政府刊行物寄託図書館に指定されたことで何が変わるのか? - GIGAZINE


◆直近の取り組みと今後の展望
2020年から法的脅威にさらされてきたインターネットアーカイブは、中央集権化という重大な脆弱(ぜいじゃく)性を露呈することとなりました。そこで、裁判所命令や本部が災害に襲われるといった事態からデータを保護するため、インターネットアーカイブは分散型のウェブ構築を目指すDWeb運動を推進しています。技術的には、コンテンツの保管場所ではなく暗号ハッシュでコンテンツを特定するInterPlanetary File System(IPFS)や、ブロックチェーンベースの分散型ストレージのFilecoinとの統合を進めています。

また、インターネットアーカイブはアメリカ大統領の交代に伴って多数の政府ウェブサイトをクロールする取り組みを行っています。ドナルド・トランプ大統領が就任した2025年のクロールは史上最大規模となり、合計で500TBを超える政府データが収集されました。このプロジェクトはインターネットアーカイブが「歴史の番人」としての役割を担い、新政権発足後もこれまでに公開された気候データや国勢調査報告書、政策文書が失われないようにしています。

HackerNoonは、「21世紀に入り、インターネットアーカイブは矛盾をはらんでいます。シリコンバレーの巨大企業に匹敵する規模で運営されていながらも教会に収容され、司書によって運営されています。訴訟や予算の制約にほんろうされる脆弱な組織であると同時に、人類が築き上げた最も強固な記憶の銀行でもあるのです」と述べました。

この記事のタイトルとURLをコピーする

・関連記事
インターネットアーカイブの創設者が「我々は生き残ったが、ライブラリは壊滅した」と語る - GIGAZINE

ウェブページだけでなく本・レコード・ビデオテープなどあらゆるメディアの保存に取り組む「Internet Archive」の物理アーカイブ倉庫を訪問した記録 - GIGAZINE

インターネット上のあらゆる情報を記録・保存するインターネット・アーカイブは本当はどんな団体なのか? - GIGAZINE

インターネット上のあらゆる情報を記録・保存する「インターネット・アーカイブ」はどのように運営されているのか? - GIGAZINE

インターネットアーカイブが出版社勝訴の影響で50万冊の書籍を貸出リストから削除 - GIGAZINE

RedditがInternet Archiveをブロック、AI企業によるWayback Machineのアーカイブ不正利用を阻止するため - GIGAZINE

Internet Archiveがハッキングされて3100万人のユーザーデータが漏えい - GIGAZINE

in ネットサービス, Posted by log1h_ik

You can read the machine translated English article What kind of facilities does the Interne….