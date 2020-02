2020年02月26日 06時00分 メモ

世界で2番目に記事数が多い「ボットが作った」Wikipediaがある



ウィキメディア財団が運営している世界最大のインターネット百科事典「Wikipedia」は誰もが自由に編集に参加でき、メインとなる英語版を翻訳することで多言語展開しています。しかし、近年は機械翻訳を使ったボットが多言語化することで、その信頼性が損なわれていると指摘されているところ。英語版Wikipediaの管理人であるカイル・ウィルソン氏が、「ボット翻訳によって世界で2番目に記事数が多くなったWikipedia」を例に、Wikipediaをめぐるボットの問題について論じています。



The World's Second Largest Wikipedia Is Written Almost Entirely by One Bot - VICE

https://www.vice.com/en_us/article/4agamm/the-worlds-second-largest-wikipedia-is-written-almost-entirely-by-one-bot





Wikipediaはその目標の1つを「誰もがオンラインで自由に知識を得ることができるようにすること、そしてそれをできるだけ多言語展開させること」としています。2020年時点においてWikipediaのメインは英語で、600万以上の記事を有していますが、目標を達成すべくWikipediaの各ページはさまざまな言語に翻訳されています。



世界で2番目に記事数が多いのは、セブアノ語版Wikipediaで、その数は英語版より63万記事少ない約537万記事となっています。セブアノ語版の次に記事数が多いのは298万記事を持つドイツ語版と、164万記事を持つスウェーデン版です。





スウェーデン語やドイツ語に比べて「セブアノ語」を聞き慣れない人も多いはず。セブアノ語はフィリピンのセブ州などで話されている言語で、その話者は1650万人ほどといわれています。セブアノ語版Wikipediaは537万の記事をわずか6人の管理人と14人のアクティブユーザーで支えていますが、これに対して英語版には1143人の管理人と13万7368人のアクティブユーザーが存在します。



なぜセブアノ語版はこんなにも少数で多くの記事を支えられているのか?という謎を解くのが、ボットの存在です。



Wikipediaには「セブアノ語版ウィキペディア」というページがあり、ここには「500万以上の記事数を誇り、英語版に次いで2番目に大きなウィキペディアであるが、記事の多くはインターネットボットアカウントのLsjbotによって作成されたものである」と説明されています。



セブアノ語版ウィキペディア - Wikipedia





2019年11月に発表された調査結果では、各国語版のWikipediaにはあわせて1601個のボットが存在することが示されました。英語版やいくつかの言語版では単純作業や反復作業のためにボットを使用するところもありますが、記事の執筆そのものにボットを使用しているところも存在するとのこと。



単一のボットが1つの言語のWikipediaにおいて多くの記事を執筆している時、その質はマイナスの影響を受けることになるとカイル氏は指摘しています。たとえばセブアノ語版のWikipediaはスウェーデンの物理学者であるスヴァルケル・ヨハンソン氏が作り出した「Lsjbot」を利用しています。



Lsjbotはセブアノ語版で行われた2950万回の編集のうち2400万回の編集に関わったことがわかっており、Wikipedia管理者のギリェルメ・モランディーニ氏の調査ではセブアノ語版記事の作成の99.12%にLsjbotが携わっていることが示されました。この調査では上位35人の編集者のうち5人を除く全てがボットであり、トップ10人に人間が存在しないことも示されています。これを受けて、モランディーニ氏は「ボットが人間の編集者を引き継いでいる」と述べました。



ボットであるLsjbotについて「記事作成を妨げる存在だ」と主張する管理者もいますが、一方でライレー・ハントリーという管理者は調査を実施し、Lsjbotが作成した記事1000本をランダムに抽出し分析したところ、「多くが非常によく構成されている」と見解を述べました。





ウィキメディア財団のアドーラ・スヴィタク氏は記事の多言語化や言語間のギャップについて「財団はローカルな言語コミュニティにツールやリソース、パートナーシップを提供することで解決を試みています」と述べています。このリソースとは、ボットやツールを作成可能なWikimediaクラウドサービスのようなもののことを指しています。スヴィタク氏は「ボット関連のポリシーはそれぞれのコミュニティにまかせている」と語っており、コンテンツ翻訳に代表されるような編集者の翻訳作業の負担を軽減する技術に言及していることからも、ボットの存在について否定していません。



このような指針の中で、質を重視するコミュニティが存在する一方、内容が不十分でもできるだけ多くの記事を作ろうとする数重視のコミュニティも存在します。そして後者において、機械翻訳を利用した記事は問題を残すこととなりました。たとえば2019年5月にはWikipediaでGoogle機械翻訳を用いた結果「village pump(村のポンプ)」がポルトガル語で「bomba do Village(村を爆撃)」と記されていたという問題が議論されました。このような翻訳記事が多数投稿された結果、Wikipedia自体の信頼が下がりかねないとして、翻訳ガイドラインの「機械翻訳」項目には「機械翻訳をそのまま投稿することはどうかおやめください」と記されています。



Lsjbotはさまざまな言語のWikipedia記事を自動作成するための裁量の方法ではないとして、アレクサンドル・ペシャンスキー氏とエリカ・アッズリーニ氏は2018年に、より人間に依存したコンテンツ・トランスクルージョン・ボットが作成しました。「Mbabel」と呼ばれるこのツールは「Wikidata」と呼ばれるウィキメディア財団によって所有されるオンラインデータベースの情報をもとに草稿を作成します。ウィキメディア財団のコンテンツ翻訳ツールとは異なり、Mbabelは直接記事の投稿を行わず、「Wikipedia上のユーザーテストページ」を作成するもの。Mbabelが作成したベースをもとに、人間がページを拡張することを前提としています。





ただしこのツールの欠点は、内容がWikidataの情報に依存する点にありました。質の高い草稿を作成するには、利用可能なWikidataの情報の質が高くなければならないのです。デモ実験を行った結果、アッズリーニ氏は「もちろん、ボットが書いたコンテンツをどう扱うかは各コミュニティが決めることです。しかし私の考えでは、この種のテキストを百科事典と同等に扱うことはWikipediaにとって有益ではないと思います。ほかの自動作成コンテンツに関連したWikipediaの記事や、Wikipediaそのものの信頼を落とす可能性があります」と結論付けました。Mbabelはあくまでボットとして機能させるのではなく、あくまで人間が記事公開のために編集することを前提としたツールとして使う必要があるとアッズリーニ氏は強調しました。



初期の英語版Wikipediaもまた、セブアノ語と同様にボットが作成した記事であふれており、2006年までは「ボット承認グループ」があり承認済みボットを監督していましたが、その後英語版Wikipediaはコンテンツ作成においてボットの使用を禁止するセクションのポリシーを作成しました。



多言語版のWikipediaを単一のボットで作成することはもろ刃の剣です。何もないよりは優れているに違いないものの、品質に対する懸念につながる可能性があるためです。ボットを関わらせつつも、最終的には複数の言語に精通した編集者による評価・改善が必要だとウィルソン氏は述べています。いつの日かボットが人間レベルの作業を行えるようになるかもしれませんが、それまではセブアノ語版Wikipediaのようなボットが作成したものは「パイロット版Wikipedia」とみなし、人間が手を加えていくべきだと考えられています。