インタビュー

創設25周年を迎えたウィキペディアを運営するウィキメディア財団の機械学習およびデータエンジニアリング責任者にAIや寄付バナーやデータセンターについてあれこれ聞いてみました

by Victorgrigas/Chris Albon

2026年1月15日、世界最大のオンライン百科事典「Wikipedia」が創設25周年を迎えました。そこで、ウィキメディア財団の機械学習およびデータエンジニアリング担当責任者であるクリス・アルボン氏にメールインタビューを行なう機会が得られたので、さまざまな質問をぶつけてみました。

Chris Albon – Fondation Wikimedia
https://wikimediafoundation.org/fr/profile/chris-albon/

データサイエンスの専門家であるアルボン氏は、テクノロジー企業や非営利団体で10年以上活躍したのち、2020年1月からウィキメディア財団の機械学習担当責任者を、2025年1月からは機械学習およびデータエンジニアリング担当責任者を務めており、ウィキペディアやその他のウィキメディアプロジェクトにおける人工知能の開発と実施を主導しています。


GIGAZINE(以下、G):
アルボン氏からは「AI時代において、人間の手で執筆されたウィキペディアは不可欠なのか」というテーマを事前に受け取っていました。その意図やこのテーマを設定した理由を含め、さらに詳しく説明していただけますか?

クリス・アルボン氏(以下CA):
ウィキペディアはインターネット上の知識の基盤を形成し、生成AIツールや検索エンジン、音声アシスタントなどを支えています。人々がウェブ上のどこで答えを得ようとも、その情報源は依然としてウィキペディアに依存しているわけです。

機械が選別する知識において、AIは仲介役を務めます。AIは、通常隠されていたり不透明である様々な情報源から情報を収集し、提供します。つまり人々は、AIの幻覚(ハルシネーション)から生じる未検証で誤解を招く情報に触れる、という高いリスクを負っているわけです。一方、ウィキペディアのような人間の手で作成された情報源では、情報の出所や、その情報が提示されるに至った経緯を容易に確認することができます。


ウィキペディアは、世界中のボランティアによって共同で作成される膨大な知識の集積体であり、偏りを低減し、インターネットをより包括的にするために、信頼性の高いコンテンツを日々追加しています。ウィキペディアは、検証可能性、中立性、透明性を担保する唯一のサイトであるゆえに、インターネット上での情報提供を継続する必要があるのです。

G:
ウィキメディア財団はAI開発と研究で知られています。例えば2015年には、記事の編集や修正による品質変化をチェックするオープンソースツール「ORES」を開発したと報じられました。

WikipediaがAIを使って記事の編集・改変によって品質が下がっていないかどうかを判断できるツール「ORES」をオープンソースで公開 - GIGAZINE


現在ウィキメディア財団が開発・管理している具体的な機械学習モデルは何ですか?また、それらは一般ユーザーにどのような利点をもたらしますか?

CA:
ウィキメディア財団は最近、ウィキペディアおよびその他のウィキメディア事業におけるAIの将来的な活用を定義する3ヵ年戦略を発表しました。この戦略により、同財団は技術的な障壁を取り除く機能の構築を目指しています。これにより、ウィキペディアの中核を担うべき人間が、技術的な問題に煩わされることなく、真に達成したいことに貴重な時間を費やせるようになります。

また、ウィキメディアのボランティアと共に、初期段階から新たなツール、実験、プロジェクトを継続的に模索し、彼らの意見を取り入れ、ニーズに応える形で開発が進行するよう取り計らっています。

2010年以降、一部のボランティアは、特に時間のかかる反復作業を簡略化するためにAIや機械学習(ML)ツールを活用してきました。例えば、多くの編集者はウィキペディアのパトロールに専用ツールを使用しており、これにはボランティアが誤った編集を迅速に特定し、修正する手助けをしてくれるボットも含まれます。ボランティアたちは、ウィキペディア全体に適用されるAI/MLツールの責任ある利用に関するガイドラインを作成・施行し、これが人間の貢献者を最大支援するために活用されるよう働きかけています。

G:
2025年6月、ウィキペディアはAI要約機能の試験導入を発表しましたが、編集者コミュニティからの反対によりプロジェクトは凍結されたと報じられています。これは編集者コミュニティを巻き込んだ十分な議論が行われなかったことが原因とされています。ウィキメディア財団のプロジェクトマネージャーは当時「2025年3月という早い段階で、この構想をフォーラムに提示し、繰り返し議論すべきだった」とコメントしていました。

WikipediaでAIの生成した要約を記事冒頭に表示するテストが編集者の反発で中止に - GIGAZINE


AI導入に対する意見は分かれていますが、ウィキメディア財団はAIのそれぞれの利点と欠点をどのように評価しているのでしょうか?

CA:
ウィキメディア財団は、ウィキペディアやその他のウィキメディア事業を世界中の読者がより利用しやすくする方法を模索してきました。これには、複雑なウィキペディア記事を様々な読解レベルの人々が利用しやすくすることを主眼としたAI要約機能などの事前同意型の参加実験(オプトイン・エクスペリメント)も含まれます。こうした実験では、通常のプロセスとして、機能構築の進め方に関する判断をボランティアと協議します。

本機能に関する議論もこのプロセスの一例であり、アイデアのプロトタイプを作成した上でウィキペディアのボランティアコミュニティに意見を求めました。ボランティアから多様なフィードバックを得られることは珍しくなく、私たちはそれを意思決定に反映させ、時には方向転換も行います。これこそがウィキペディアを真に協働的な人類の知識プラットフォームとして維持し続ける原動力なのです。

by CAlbon (WMF)

G:
各AIモデルはデータとして利用するためインターネットから様々な情報を収集しているわけですが、その情報源の中でもウィキペディアの重要性は格段に高くなっています。こうした中、ウィキペディアの25周年を記念して、Microsoft、Meta、Amazon、Perplexity、Mistral AIがウィキペディアの有料プログラムパートナーとして正式に発表されたというニュースがありました。

Microsoft・Meta・Amazon・Perplexity・Mistral AIがWikipediaの有料プログラムパートナーとして公式に発表 - GIGAZINE


各社から提携へ関心を示す問い合わせがウィキメディア財団に寄せられたのだろうと推測していますが、これらの最初の接触はいつ頃行われたのでしょうか?また、最初の協議からパートナーシップが実際に実現するまで、どのくらいの期間がかかったのでしょうか?

CA:
ほとんどの販売や契約プロセスと同様に、こうした協議の正確な時間枠を共有することは困難であることをご了承ください。

検証済みの百科事典的な情報として最大のリソースであるウィキペディアやその他のウィキメディア事業は、生成AIツール、検索エンジン、音声アシスタントなどを支える原動力となっています。ウィキメディア財団は長年、テクノロジー業界の複数企業と連絡を取り合っています。ここ数年で生成AIが台頭する中、私たちはAI開発者との対話を継続的に歓迎し、彼らの利用者ニーズを理解するとともに、ウィキメディアコンテンツが第三者のプラットフォームに表示される際、適切な帰属表示がどうあるべきか、その方法を現在模索しています。

なお、現在のAIブームに先立ち、商用有料製品「ウィキメディア・エンタープライズ」が2021年にローンチされ、2022年には初期の企業顧客であるGoogleやInternet Archiveをはじめ、契約パートナーシップの一部が正式に確立しました。

G:
リリースで発表された5つのプログラムパートナーの中には、OpenAIとAnthropicが含まれていませんでした。OpenAIとAnthropicのAIクローラーもウィキペディアのトラフィックに大きな負荷をかけていると見受けられますが、両企業に参加要請は行われたのでしょうか?

CA:
繰り返しになりますが、私たちは、AI企業を含め、ウィキメディアのコンテンツを商業的に再利用する全ての企業の協力を歓迎します。これによりウィキメディアのコンテンツが責任を持って活用され、知識普及という使命の推進に寄与できるよう努めています。ウィキペディアの長期的な持続可能性を支える方策を模索するため、潜在的なパートナー企業全てと継続的に連携を図っております。

G:
ここで少し軽い話題を。アルボン氏のお気に入りのウィキペディアの記事、または最も印象に残った記事を教えていただけますか?

CA:
Perpetual Stew(永久スープ)」です!理由は、未だトライしたことがなく、ずっと試してみたいものだったからです。


G:
続いて、ウィキペディアの仕組みや独自性、ボランティアモデルについてです。GIGAZINEもサーバー運営費の一部を賄うため、読者に寄付バナーを表示することがあります。これらのバナーを設計する際、私たちはウィキペディアの手法を大いに参考にしました。そのデザインは様々なA/Bテストを経て確立されたものだろうと想定したからです。

以下は実際にウィキペディアで表示された、共同創設者のジミー・ウェールズ氏が訴えかける寄付バナー。


ウィキペディアの寄付バナーは本当に繰り返しのA/Bテストの結果なのでしょうか? それとも他の理由で現在のデザインに至ったのでしょうか? 世界中の寄付バナー設計者のために、ウィキペディアの寄付バナーデザインとお礼のサンクスページの背景にある理論的根拠を共有していただけますか?

CA:
ウィキペディアのバナー、メール、サンクスページなどは、様々な手法を組み合わせて長年にわたり改良を重ねた結果です。私たちのコンテンツ戦略は、ウィキペディアのユニークなモデルへの認知向上、読者からの寄付の重要性、読者にとってのウィキペディアの価値、そして寄付者への感謝の気持ち――これらを適切にバランスさせることを目指しています。チームは状況の変化、成果、フィードバックに応じて継続的にメッセージを改善し適応させています。

A/Bテストは、異なるメッセージの効果を把握するための重要な手法の一つですが、唯一の要素ではありません。コミュニティでの議論、読者からのフィードバック、変化するグローバルな状況、編集方針、ローカライズ、そして定性的な判断もすべて重要な役割を果たします。私たちの目標は、誠実で理解しやすく、異なる地域や読者層に適したメッセージを見つけることです。

例えば日本においては、複数の日本語翻訳者・校正者と連携し、今年からは日本語向けのコピーライターとも直接提携し、日本語でオリジナルの資金調達用コピーを作成しています。これは意図的な選択です。つまり、文化的配慮を込めたローカライゼーションは、明確さを担保するため、また読者への敬意の表れとしても極めて重要だと考えているからです。

G:
「25年間、広告モデルに頼らず「中立性」を維持できた技術的・組織的背景」「『人間の知恵』をデジタル空間で持続させるための、技術・製品責任者としてのロードマップ」について、Wikipediaの技術的側面、特にサーバーについてお聞かせください。2010年にGIGAZINEでは、KOF2010(関西オープンフォーラム)というイベントでの講演を基に、これがWikipediaの裏側、知られざる大規模システムの実態「Wikipedia/ MediaWiki におけるシステム運用」という記事を掲載しました。この2010年時点では、ウィキペディアのサーバー台数はわずか350台ということでした。2026年1月時点の最新のサーバー構成とソフトウェア構成はどのようになっているのでしょうか?

CA:
本回答の執筆時点で、当社が運用するサーバーは合計2478台であり、そのうち316台がバーチャルマシンです。この数は、ハードウェアの更新(通常5年ごと)やメンテナンス目的での一部ホストの停止に伴い、わずかに変動します。これらのサーバーは、コンテンツ配信ネットワーク(CDN)、データベース、オブジェクトストレージ、アプリケーションサーバー、クラスター分析、その他多数のサービスを稼働させています。

by Victor Grigas

ソフトウェア構成はサーバーの種類や用途によって異なりますが、当社では全サーバー群においてオープンソースソフトウェアのみを運用し、Debian GNU/Linuxを単一基盤として採用しています。
(編集部注:補足として、本回答は2025年1月20日~22日の間に執筆されたものです)

G:
ウィキペディアは非営利団体とボランティアによって運営されているという性質上、その歴史の中でサーバーの管理や運営にも非常に苦労してきたと思います。今25年の歴史を振り返って、ウィキペディアの存続が最も危ぶまれた瞬間はいつだと思いますか? そして、それはどうやって乗り越えることができたのでしょうか?

CA:
世界で最も訪問者数の多いウェブサイトの一つを運営する組織(しかも非営利団体として)として、我々は時折技術的な課題に直面します。しかし、ウィキペディアの存続を脅かすほど重大な事象は思い当たりません。

ウィキメディア財団は年間計画の一環として、ウィキメディア・プロジェクトの運営に影響を与え得る世界的な動向を継続的に評価しており、外部からの課題に効果的に対応できるようグローバルコミュニティと連携しています。

技術的な側面における最近の事例として、私たちはLLM(大規模言語モデル)のトレーニングやその他の目的でウィキメディアのコンテンツを巡回するAIスクレイパーの影響を調査してきました。これらはサーバーに多大な負荷をかけています。これに対応するため、財団はインフラ保護能力への投資を継続しており、プロジェクトを誰もが利用可能な状態に保つための基盤システムに負担をかけるような、過剰なリクエストをブロックする体制を整えています。

by Victor Grigas

G:
2025年にはAWSやCloudflareが落ちることでインターネット上のサイトの大部分がアクセス不能になるといった出来事がありましたが、いずれでもウィキペディアは無傷でした。どうやってCDNなどに頼らず冗長性を確保しているのか、特にウィキメディア財団による記事で示されている全世界のデータセンターの運用体制について教えてください。

CA:
ウィキメディア財団は現在、世界中に点在する7つのデータセンター(コロケーションスペース)から、全てのプロジェクトのユーザートラフィックに対応しています。これらのデータセンターの所在地は、アメリカにサンフランシスコ、テキサス、バージニアの3カ所、ヨーロッパにフランス・マルセイユ、オランダ・アムステルダムの2カ所、南米にブラジル・サンパウロの1カ所、アジアにシンガポールの1カ所となっています。


複数のデータセンター(ポイント・オブ・プレゼンス、PoP)の存在は、財団が運営するウェブサイトの信頼性、冗長性、パフォーマンスの向上に寄与しています。当財団は、データセンタープロバイダーから借り受けたコロケーションスペース内で、自社所有のハードウェア上に独自のCDNを運用しています。

通常、ユーザーは地理的DNSを介して最も近いPoPに接続されるため、日本のユーザーはシンガポールのeqsin PoPに接続されます。PoPがメンテナンス中やその他の理由でダウンした場合、ユーザーを次に近いPoPへリダイレクトします。この場合、ほぼ必ず遅延が拡大します。したがって、シンガポールのeqsin PoPに問題が生じた場合、日本のユーザーは米国サンフランシスコのulsfo PoPに接続します。

G:
最後に日本のウィキペディアユーザーへのメッセージがあれば、ぜひお聞かせください。

CA:
貢献を続け、自由な知識を共有し続けましょう。


G:
ありがとうございました。

この記事のタイトルとURLをコピーする

・関連記事
世界最大のオンライン百科事典「Wikipedia」が創設25周年で記念企画「ウィキペディア 25」実施へ - GIGAZINE

Wikipediaのジミー・ウェールズがインタビューを1分足らずで退席、「創業者か共同創業者か」の質問に不満を表明 - GIGAZINE

WikipediaはAIの台頭でトラフィックが前年同期比で8%も減少、AIの普及で憂き目にあうウェブサイトを救うためにできることは? - GIGAZINE

Wikipediaは情報の削除を求める圧力にさらされて「攻撃を受けている」 - GIGAZINE

Wikipediaで335言語版にまたがり作成されていた記事はWikipedia史上最大の自己宣伝だった可能性が大 - GIGAZINE

Wikipedia時代にかつての名門百科事典メーカー・ブリタニカはなぜ巨大企業に成長できたのか - GIGAZINE

in AI,   ネットサービス,   インタビュー, Posted by log1i_yk

You can read the machine translated English article As Wikipedia celebrates its 25th anniver….