2024年10月23日 23時00分メモ

Googleは絶版本を含む約2500万冊もの書籍をスキャンしたデータベースを持っているが誰にも読まれず眠っている

かつてGoogleは、これまでに出版されたほぼすべての書籍をスキャンし、著作権が切れた書籍にワンクリックでアクセス可能にするプロジェクトを進めていました。ところが、このプロジェクトは司法の壁によって阻まれてしまい、約2500万冊もの書籍をスキャンしたデータベースは誰にも読まれることなく眠っているとのことで、月刊誌のThe Atlanticがその経緯について説明しています。

Torching the Modern-Day Library of Alexandria - The Atlantic
https://www.theatlantic.com/technology/archive/2017/04/the-tragedy-of-google-books/523320/

Googleの共同創業者であるラリー・ペイジ氏は、Googleを設立した当初から書籍をデジタル化してアクセス可能にするプロジェクトに興味を持っていました。そもそも、Google検索の元となった学生プロジェクトも、「単一の統合されたユニバーサルデジタル図書館」を実現するテクノロジーの一環として考案されたものだとのこと。

Googleが軌道に乗った2002年に、ペイジ氏は当時書籍のデジタルスキャンで世界の先端を走っていたミシガン大学にアプローチしました。そして、図書館の本をGoogleが借りてスキャンを行い、そのデジタルデータを大学や図書館に提供するという契約を持ちかけました。2004年までにGoogleはスキャンをスタートし、ミシガン大学だけでなくハーバード大学・スタンフォード大学・オックスフォード大学・ニューヨーク公立図書館・その他数十もの図書館システムとも契約を結びました。

図書館から持ち出された本はトラックに満載されてGoogleのスキャンセンターまで運ばれ、図書館や本屋で見るようなカートに積まれて人間のオペレーターに渡されました。Googleが構築した書籍スキャン装置には、本のページを撮影する4台のカメラや紙の曲率を測定するレーダーが搭載されており、オペレーターが1枚1枚手でページをめくって、フットペダルを押すことでページのスキャンができる仕組みになっていました。このスキャン装置は1時間に1000ページもの速度で書籍をスキャンできたとのことです。

Googleは湾曲したページを補正するアルゴリズムを開発するなど、スキャンに時間がかかる問題点の多くをソフトウェアで解決しました。ピーク時には約50人ものソフトウェアエンジニアが雇われ、生の画像データをテキストに変換する光学文字認識ソフトウェアや、画像を処理するルーチン、ページ番号や脚注を変換するシステム、関連性によって本をランク付けするアルゴリズムなどを開発していたそうです。

Googleは数年に及ぶ時間と推定4億ドル(約600億円)ものコストをかけて、約2500万冊もの書籍をスキャンすることに成功しました。Googleはもともと書籍の全文を公開するつもりはなく、あくまで本の全文検索サービス(Google ブックス)を作成することが目的であったため、サービスの作成はフェアユースによって保護されると考えていました。

しかし、自分たちの知らない間に膨大な書籍が図書館から貸し出され、Googleによってスキャンされていたと知った著者や出版社は、この取り組みに待ったをかけました。2005年に業界団体の全米作家協会が集団訴訟を起こすと出版社の団体もこれに合流して、デジタルの著作権を巡るGoogle対出版業界の法廷闘争が始まりました。

テクノロジー業界がコンテンツ配信を巡って既存の業界と対立するケースは、決して珍しいことではありません。そして、レコードやラジオでの音楽放送を巡る訴訟が「音楽を販売または放送するたびに権利所有者へライセンス料を支払う」という仕組み作りにつながり、結果としてミュージシャンの新たな収入源につながるなど、こうした訴訟が双方にとってメリットをもたらす形で終わることもあります。

実際、Googleを訴えた著者や出版社は、数年ほどで双方に利益がある妥協点を見つけました。それは、「すでに店頭には存在しない絶版本のデジタルデータを販売する」という新たな市場の開拓でした。長らく、出版社や著者にとって絶版本は新たな利益をもたらさない死んだ財産でしたが、Googleの大規模なデジタル化を通じたデータ販売が可能になれば、出版社や著者にとって新たな収益源となります。また、Googleのプラットフォームでデジタル書籍の販売を行うことで、Googleにも利益があります。

当時、全米出版協会の理事長だったリチャード・サーノフ氏は、「私たちはこの国の読者と研究者のために、何か特別なことをするチャンスがあることに気付きました。私たちはこの業界の絶版リストに光を当て、発見と消費という2つのことを実現できると気付いたのです」と述べました。

「Googleのデジタルスキャンデータを利用して絶版本のデジタル販売を実現する」という目標ができると、出版業界がGoogle ブックスとの訴訟に勝利することの意味が薄れました。むしろ、Google ブックスのように書籍の一部を表示するシステムは、書店では見つからない絶版本を読者が発見するのに役立つため、デジタル販売の売上促進につながる可能性もあります。

また、絶版本のデジタル販売を巡る問題の1つに、古い書籍では「どの書籍がデジタル販売可能なのか、現在の著作権保有者が誰なのか」といった点を確認するコストが高いということが挙げられます。しかし、全米作家協会とGoogle ブックスの訴訟は集団訴訟であるため、その判決は理論的にいえばアメリカの図書館にある書籍のほぼすべての著者と出版社を法的に拘束できます。つまり、集団訴訟を通じて出版業界とGoogle側がうまい妥協点を見つけることで、さまざまな問題を回避して絶版本のデジタル販売を実現する可能性が見いだされたというわけです。

ここで出版業界とGoogleの利害が一致し、2008年には「Googleが出版業界に総額1億2500万ドル(当時のレートで約135億円)の賠償金や訴訟費用を支払う代わりに、Google ブックスにライセンス許諾が与えられ、Googleは将来的なデジタルデータ販売収益の63％を出版社や著者に分配する」という和解案が提出されました。また、絶版になった本は「機関購読データベース」としてパッケージ化され、大学に販売されることも定められていました。

カリフォルニア大学バークレー校の法学教授であるパメラ・サミュエルソン氏が、「おそらくこれまでに試みられた中で最も冒険的な集団訴訟の和解」と呼んだこの和解案が成立すれば、Googleと出版業界の双方に新たな収益源が生まれる可能性がありました。

ところが、これに大学図書館やGoogleの競合他社が反発。大学図書館の関係者や研究者の主張は、「デジタル本の利用ライセンスがGoogleに独占されることで、学術雑誌の市場で起きたような価格のつり上げが起きるのではないか」というものでした。一方、Googleの競合他社であるMicrosoftやAmazonは、検索エンジンやデジタル本の販売において、Googleが独占的な力を得ることを懸念していました。

これらの異議申し立てを受けて和解案の調査を行った司法省は、「Googleの競合他社が同じような権利を得るには、『書籍を大量にスキャンして集団訴訟を起こされ、和解を試みる』というあり得そうもないプロセスを経なければならない」として、和解案に否定的な見解を示しました。結果として2011年に和解案は却下され、集団訴訟は「Google ブックスの行為はフェアユースである」として、2016年にGoogleの勝訴で終わりました。そして、大量の絶版本がデジタル販売される未来は実現しませんでした。

和解案が却下された理由について、Googleのエンジニアリングリーダーとして和解案の策定に携わったダン・クランシー氏は、図書館関係者や学術書籍の著者が和解案に反対したことが大きかっただろうと指摘。「図書館や(当時ハーバード大学の図書館長だった)ボブ・ダーントン氏、サミュエルソン氏らがこれほど積極的に活動しなければ、司法省が関与することはなかったでしょう」と、クランシー氏はThe Atlanticにコメントしています。

皮肉なことに、和解案に反対していた人々の多くは「集団訴訟と和解」というプロセスがなくても、絶版本のデジタル販売が可能になるだろうと考えていました。和解案に反対していたサミュエルソン氏でさえも、「このビジョンが実現可能であることが明白になった今、このビジョンを実現しようとしないのは悲劇でしょう」と記しています。

しかし、和解案の却下から10年以上が経過した記事作成時点でも、議会に働きかけて絶版本のデジタル販売を可能にする動きは進んでいません。The Atlanticは、「確かに、誰かが政治資金を投じて書籍のライセンス制度を変えようとする可能性は低いと思われます」「Googleに対する集団訴訟が、この種の改革を行うおそらく唯一の場になったのは偶然ではありません。Googleはそれを実現するイニシアチブと資金を持つ唯一の企業だったのです」と述べました。

Googleは集団訴訟に勝訴したものの、古い書籍のスキャンをほとんど停止しており、2500万冊もの書籍がスキャンされたデータベースはGoogleのどこかに眠っています。データベースは50ペタバイト～60ペタバイトもの容量になるそうですが、それを見ることができるのは、データベースをロックする責任者である数人のエンジニアだけだとのことです。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2024年10月23日 23時00分00秒 in メモ, Posted by log1h_ik

You can read the machine translated English article Google has a database of about 25 millio….