2022年07月12日 15時00分ソフトウェア

1億3400万件のウェブページに基づくオープンソースのAIナレッジツール「Sphere」をMetaがリリース

Facebookの親会社であるMetaが、インターネット上に存在する膨大な情報を利用して、AIやその他のシステムが機能するためのナレッジベースを提供するためのAIツール「Sphere」を発表しました。

Introducing Sphere: Meta AI’s web-scale corpus for better knowledge-intensive NLP
https://ai.facebook.com/blog/introducing-sphere-meta-ais-web-scale-corpus-for-better-knowledge-intensive-nlp/

How AI could help make Wikipedia entries more accurate
https://tech.fb.com/artificial-intelligence/2022/07/how-ai-could-help-make-wikipedia-entries-more-accurate/

現地時間の2022年7月11日、Metaは数十万件の引用を一度に自動的に検証できる最初のAIモデル「Sphere」を発表しました。MetaはSphereを「1億3400万件のウェブページを知識源として構成された検索エンジン」と表現しており、この種のAIナレッジツールとしては「既存のものよりも桁違いに大きな規模で、非常に複雑なもの」と表現しています。

(2/2) As a knowledge source for our model, we created Sphere, a retrieval engine comprised of 134 million public webpages — an order of magnitude larger and significantly more intricate than ever used for this sort of research. Read more: https://t.co/NUq7bgTtom pic.twitter.com/KqDQz9fNQD
— Meta AI (@MetaAI) July 11, 2022

スマートフォンに搭載されているSiriのような音声アシスタントは、知識集約型自然言語処理(KI-NLP)と呼ばれる質疑応答あるいは事実確認タスクを行い、データベース上から関連情報を検索・取得してユーザーの求める答えを返します。しかし、既存のKI-NLPはいくつかの問題を抱えており、そのうちのひとつが「関連するウェブ知識を検索するために、商用のどのようなアルゴリズムで動作するのかが不明な検索エンジンに依存している」という点です。

Metaは現実世界の知識をより有効に活用できるように、よりオープンなウェブ上のデータを利用することで、複数のKI-NLPタスクを一度に解決できるような「普遍的」で「キュレートされておらず」、「構造化されていない」ナレッジベースを構築することが重要と考え、AIナレッジツールの「Sphere」を開発したとしています。従来のKI-NLPとは異なりデータベースが検索エンジンに依存していないため、Sphereを利用するAI研究者はコーパスを調べて制御することが可能で、さまざまな方法でスケーリングと最適化が可能となり、検索テクノロジーの前進にも貢献できるとMetaは説明しています。

Sphereはインターネット上で公開されている1億3400万件のドキュメントがデータベースとなっており、各ドキュメントは9億600万個程度の文節と100個程度のトークンに分割されるため、既存のKI-NLPで利用されるようなナレッジソースよりもはるかに多くのデータを提供できるようになっているとのこと。

SphereはオープンソースのAIナレッジツールであるため、GitHub上で公開されています。

GitHub - facebookresearch/Sphere: Web-scale retrieval for knowledge-intensive NLP
https://github.com/facebookresearch/sphere

Sphereはウェブをクロールし、そのアーカイブとデータセットを自由に一般に提供するCommon CrawlやCCNetを変形させたもので、冗長な資料を投棄し、書き込み品質に基づいてページをスコアリングします。しかし、Sphereは何かしらのシステムに依存しているわけではないため、最先端の自然言語処理プログラミング研究に自由に活用することが可能です。Sphereの場合、コーパス全体へのアクセスを解放しているので、研究者はSphere上のすべてのテキストを調べることが可能。これを活かして特定の弱点をなくすようなアーキテクチャを構築することもでき、これにより、KI-NLPの普遍的なモデルを構築することもできます。

コーパスがオープンになっているということは、「dense retriever(密な検索)」のような新しいアーキテクチャの実験も可能になります。「密な検索」の場合、文書とクエリーはベクトルとして表現され、リーダーモデルに容易に供給することができます。つまり、リーダーと検索は同じ言語を話すので、相互作用するよう最適化することが簡単になるというわけ。一方で、従来の検索エンジンは人間が使うことを前提に設計されているため、システムは自然言語でやり取りをしなければならず、翻訳ミスなどが起こる可能性が高くなります。

Metaは「従来の検索エンジンがAI研究者にKI-NLPモデルの構築へのアクセスを許可し続けるという保証はありません。AIコミュニティを支援するための継続的な取り組みの一環として、この分野でのさらなる実験を促進するためにSphereをリリースします。Sphereは研究者がより広範囲のドキュメントを処理するようトレーニングするのに役立ち、ウェブの最も厄介な課題である『誤った情報』や『ノイズ』、『一貫性のないテキスト』に対応する自動システムを構築することが可能になります。現実の世界ではこれらのモデルは有害なコンテンツを取り締まることが可能となり、適切に設計されたUIと組み合わせることで、人々のデジタルリテラシーと批判的思考スキルを強化することが可能となります」と述べました。

なお、WikipediaがさっそくSphereを利用して自動でプラットフォーム内の記事をスキャンし、引用元となるウェブページの検証を行っています。