ネットサービス

現代科学を支える巨大プレプリントサーバー「arXiv」はどのようにして生まれたのか?


世界最大のプレプリントサーバーである「arXiv」は、物理学や数学、コンピューターサイエンス、統計学などの分野において論文のアップロードやダウンロード機能を無料提供しており、学問の発展において重要な役割を果たしています。そんなarXivは1人の物理学者のコードから生まれました。

Inside arXiv - the Most Transformative Platform in All of Science - Slashdot
https://science.slashdot.org/story/25/03/27/1456239/inside-arxiv---the-most-transformative-platform-in-all-of-science

一般的に学術雑誌に掲載される論文は、研究者同士で「ピアレビュー(査読)」と呼ばれる作業が行われるため、掲載までには数カ月~1年を要する場合があります。しかし、arXivでは自身の論文を査読を伴わない「プレプリント」として投稿できるため、誰でもすぐに無料で公開することが可能です。科学系ジャーナリストのクレア・ワトソン氏は、新型コロナウイルス感染症のパンデミックのような危機的状況では、arXivやbioRxiv、medRxivのようなプレプリントサーバーによって、治療や予防のブレークスルーが迅速に広められ、何百万人もの人々の命を救う可能性があると推測しています。

2021年には総合科学学術雑誌のNatureがarXivを「科学を変革した10のコンピューターコード」に認定し、学問の発展を促進するその役割を称賛しています。記事作成時点でarXivは260万以上の論文をホストし、毎月2万件以上の新たな投稿を受け取っているとのこと。また、月間アクティブユーザー数は500万人で、これまでにさまざまな論文がarXivにアップロードされています。

現代のAIブームの火付け役となった、機械学習モデルのTransformerの論文もarXivに投稿されているほか、ミレニアム懸賞問題の1つであるポアンカレ予想の解法を示したグレゴリー・ペレルマン氏の論文もarXivに掲載されています。こうした科学界への貢献から、WiredはarXivについて「科学者にとってarXivのない世界を想像することは、図書館やGPSのない世界を想像することと同じです」と評しています。

そんなarXivを生み出したのはコーネル大学の物理学教授であるポール・ギンスパーグ氏です。1991年当時、ロスアラモス国立研究所の研究者だったギンスパーグ氏は、プリンストン高等研究所のポスドクであったジョアン・コーン氏から「物理学のプレプリントにアクセスするための方法が定まっておらず、研究者は所属機関のメーリングリストに登録するか、直接メールで連絡する必要がある」と訴えかけられ、プレプリントの配布プロセスを自動化することを提案されています。

さらにギンスパーグ氏のもとに、ある物理学者から「旅行中にメールで送信されてきた論文によってコンピューターのストレージが一杯になってしまう」との陳述が届きます。これを重く見たギンスパーグ氏はコーン氏の勧めもあり、論文の配布を自動化するスクリプトをわずか1日で作成しました。当時を振り返ったコーン氏は「ギンスパーグ氏には先見の明がありました」と語っています。


こうして誕生したarXivでしたが、当初はただの自動化された電子メールサーバーでした。その後、1994年にアメリカ国立科学財団からの助成金を元に、より信頼性の高いPerlコードに移行しています。

当初は年間100件程度の投稿を予想していたギンスパーグ氏でしたが、次第にarXivへのアップロード数は増加。こうしたarXivの成長の裏には、arXivに盛り込まれた「プレプリントをアップロードするユーザーは、arXivに自身の論文を永続的に配布できる非独占的ライセンスを与える」という条項があります。この条項により、学術論文に掲載された場合でもarXivに掲載されたプレプリントが削除されることがなくなります。

その後、2001年にギンスパーグ氏はコーネル大学図書館にarXivの運営を移管しました。その際ギンスパーグ氏は「彼らの仕事は学者に資料を広めることで、同様の役割を果たすarXivを運営することは自然なことだと思います」と述べています。


しかし、ギンスパーグ氏が構築した複雑かつ膨大な量のコードは移管されたコーネル大学図書館に大きな混乱をもたらすことになります。また、ギンスパーグ氏はarXivの裏方として、コードのエラーをチェックする作業を行っていましたが、一部の開発者からは「開発に手を出しすぎている」との批判を受けたり「優れた下級管理職ではあるものの、マネジメントセンスは皆無」との評価を受けたりしています。

2019年にはarXivはコーネル大学コンピューティングおよび情報科学部門に移管されます。しかし、数カ月語には営利目的の学術出版のバックグラウンドを持つ新たなディレクターが引き継ぐなど、arXivの管理体制に混乱が生じました。arXivのある従業員は「arXivにとって良好な時期ではありませんでした」と語りました。


それでも、2023年にはサイモンズ財団やアメリカ国立科学財団による約15億円もの資金提供を受けたほか、コーネル大学の教授であるラミン・ザビ氏がファカルティディレクターに就任するなど、新たなガバナンス構造の下で、arXivのクラウドへの移行と、Pythonへのリファクタリングなどが進められています。

世界最大のプレプリントサーバー「arXiv」に約15億円もの資金が提供される、クラウド移行やコードの近代化に使われる計画 - GIGAZINE

この記事のタイトルとURLをコピーする

・関連記事
arXivで公開された未査読論文について研究者らがオープンに議論できるプラットフォーム「alphaXiv」 - GIGAZINE

1兆のテキストトークン・34億個の画像・PDF・ArXivの論文などを含むオープンソースのデータセット「MINT-1T」をSalesforceが公開 - GIGAZINE

世界最大のプレプリントサーバー「arXiv」でついに論文をHTML形式で表示可能に、視覚障害や失読症を持つ人のアクセシビリティが向上 - GIGAZINE

中国の科学者が「自国の論文を引用しまくる」のが科学の国際ランキングをゆがめているとの指摘 - GIGAZINE

科学論文の海賊版サイト「Sci-Hub」は撤回された論文を多数共有し続けている - GIGAZINE

in ネットサービス, Posted by log1r_ut

You can read the machine translated English article How did arXiv, the giant preprint server….