科学論文の調査に特化したAIモデル「OpenScholar」がベンチマークでGPT-4oを上回る、科学研究の大幅な効率化に期待
近年は生命分子の構造と相互作用を予測するAIモデル「AlphaFold 3」がリリースされたり、「ChatGPTのおかげで論文を読む手間が99%減った」と研究者が報告したりするなど、科学研究におけるAIの活用はますます重要なものになっています。新たに、ワシントン大学とアレン人工知能研究所の研究チームが、科学文献の調査に特化したAIモデル「OpenScholar」をリリースしました。
Ai2 OpenScholar
https://openscholar.allen.ai/
Ai2 OpenScholar: Scientific literature synthesis with retrieval-augmented language models | Ai2
https://allenai.org/blog/openscholar
OpenScholar: The open-source A.I. that’s outperforming GPT-4o in scientific research | VentureBeat
https://venturebeat.com/ai/openscholar-the-open-source-a-i-thats-outperforming-gpt-4o-in-scientific-research/
科学研究では先行研究の内容や課題を把握することが重要ですが、日々膨大な量の科学論文や文献が発表されている現状では、自身の分野の最新研究に追いつくだけでも多大な労力が必要となります。OpenScholarはそんな科学者の負担を軽減するため、ユーザーのクエリに応じて関連する論文を見つけ出し、その内容に基づいた回答を生成してくれるAIモデルです。
OpenScholarはアレン人工知能研究所が開発した学術文献検索サービス・Semantic Scholarに含まれる4500万件以上の論文と、約2億4000万もの対応する文章の組み合わせからなるデータセットを用いて訓練されています。また、反復的な自己フィードバックを使用することでモデルの出力を改善しているとのこと。
実際にデモ用のウェブ版OpenScholarを使った様子は、以下の動画を見るとよくわかります。
Ai2 OpenScholar Demo - YouTube
まずは先行研究の検索から。
ウェブ版のOpenScholarの入力フォームに、「Has anyone tried to scale up the retrieval corpora of retrieval-augmented LMs to trillion tokens?(検索で補強された言語モデルの検索コーパスを数兆トークンにスケールアップしようとした人はいましたか?)」と入力し、送信ボタンをクリック。
数秒ほど待つと、入力した内容に関連する論文や、その内容についてまとめた文章が生成されました。文章には適宜論文が引用されており、末尾には参考文献が一覧で並べられています。
引用された論文のリンクにカーソルを合わせると、その内容をまとめたものが表示されます。
次はデータセットの検索を行います。
「Can you suggest good benchmarks to evaluate long-context language models, ideally involving longer 100k tokens?(長いコンテキストの言語モデルを評価するのに適したベンチマーク、理想的には10万トークンより長いものを含むベンチマークを紹介できますか?)」と入力しました。
すると、やはり数秒ほどで条件に合致するベンチマークを教えてくれました。
本来であればかなり長い時間がかかる作業を、OpenScholarを使えばかなり短時間で済ませることができます。
特定の論文について尋ねることも可能です。
「Summarize the key technical contributions and empirical findings of the following paper. Self-RAG:Learning to Retrieve, Generate, and Critique through Self-Reflection.(以下の論文の主要な技術的貢献と実証的知見を要約してください。『Self-RAG:自己反省を通じた検索、生成、批評の学習』)」と入力。
長い論文から、必要な部分をコンパクトに要約してくれました。
続いて、ロボット工学のアルゴリズムについて質問してみます。
「I want to learn about lazy search algorithms for robotics. Suggest 3-4 papers.(ロボット工学のための遅延探索アルゴリズムについて学びたいです。3-4件の論文を紹介してください)」と入力。
遅延探索アルゴリズムに関する論文が4件紹介されました。
もっと大ざっぱな質問をすることも可能です。「Is two layer ReLU neural network guaranteed to be learnable?(2層ReLUニューラルネットワークは学習可能ですか?)」と尋ねてみたところ、近年の研究結果をまとめた応答が生成されました。こうした質問に対しても、さまざまな参考文献が引用されています。
研究チームは、科学的な質問の新しいベンチマークである「OpenScholarQABench」を用いて、MetaのLlama-3-8BやGPT-4oなどの大規模言語モデルとOpenScholarの性能を比較しました。その結果、OpenScholarは応答の正確性や引用精度で、はるかにパラメータ数の大きいGPT-4oなどよりも優れたパフォーマンスを発揮することが判明。特に自由回答形式の質問については、GPT-4oやその他のモデルでは80~95%のケースで不正確または実際には存在しない論文が引用されましたが、OpenScholarは高い割合で実在する論文の引用を行いました。
OpenScholarのパラメータ数はわずか80億であり、アーキテクチャも科学文献の調査に特化しているため、発展途上国の研究機関や予算の限られた研究者にとって、はるかにコストパフォーマンスの高い選択肢となります。さらに、GPT-4oをベースにOpenScholarのデータセットや生成パイプラインを適用したところ、さらに品質が向上することも確認されました。
以下のグラフは、コンピューターサイエンスや物理学、生物医学などの専門家を対象に、GPT-4oあるいはOpenScholarが出力した回答と人間によって書かれた回答のどちらを好むか答えてもらった結果です。GPT-4oの回答を好む専門家の割合は39.6%だったのに対し、OpenScholarの回答を好む割合は51.5%となり、人間の回答を上回りました。また、GPT-4oをベースにしたOpenScholarの回答は、70%以上の専門家に好まれるという結果になりました。
OpenScholarの限界としては、データセットがオープンアクセスの論文に限定されているため、有料論文が多数を占める分野では、回答に必要な論文が引用できない可能性が高いという点が挙げられます。また、ほとんどの言語モデルに存在する幻覚(ハルシネーション)と思われる不正確な引用を行ったり、質問に対する代表的な論文を引用できなかったりするケースもあるとのこと。
それでもOpenScholarは、AIを活用した科学研究の重要な一歩であり、これを元にさらに効率的なAIシステムが構築されることが期待されます。OpenScholarのすべてのコードやトレーニングデータ、ベンチマーク結果などはGitHubやHugging Faceで公開されています。なお、記事作成時点で公開されているウェブ版はデモ用であり、コンピューターサイエンスに関する質問と論文にのみ対応しているとのことです。
GitHub - AkariAsai/OpenScholar: This repository includes the official implementation of OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs.
https://github.com/AkariAsai/OpenScholar
OpenScholar_V1 - a OpenScholar Collection
https://huggingface.co/collections/OpenScholar/openscholar-v1-67376a89f6a80f448da411a6
・関連記事
「ChatGPTで論文を読む手間が99%減った」と科学者、研究室ではAIがどのように活用されているのか? - GIGAZINE
実験と論文執筆だけでなく査読まですべてAIが行う「AIサイエンティスト」を日本のAI企業「Sakana AI」がリリース - GIGAZINE
なぜ研究者はローカルPCでAIを実行する必要があるのか? - GIGAZINE
コンピューターサイエンスに関する論文に対する5万件の査読報告書を分析すると7~17%がAI生成だったことが判明 - GIGAZINE
生成AIツールで画像や実験データを簡単に捏造できるようになり科学研究が脅かされている - GIGAZINE
「すべての学術誌でAIによる不正画像チェックを行う」とScienceが発表 - GIGAZINE
・関連コンテンツ