2023年05月04日 20時00分サイエンス

「ChatGPTで論文を読む手間が99％減った」と科学者、研究室ではAIがどのように活用されているのか？

将来的に全職業の80％がAIの影響を受けるとの研究結果が示されているほか、すでにイラストレーターやゲーム開発者がAIに仕事や仕事のやりがいを奪われたと訴えており、今後はより専門性の高い分野でもAIの活用が重要なスキルになってくると予想されます。ウィスコンシン大学マディソン校の教授らが、OpenAIの対話型AI・ChatGPTを使った材料工学の研究で大きな成果を上げたことを報告しました。

ChatGPT makes materials research much more efficient
https://engineering.wisc.edu/news/chatgpt-makes-materials-research-much-more-efficient/

「AIは、非常に複雑で時間のかかるタスクをどんどん支援できるようになってきています」と語るのは、ウィスコンシン大学マディソン校の材料科学・工学部教授のデーン・モーガン氏と、その同僚のスタッフサイエンティストであるマチェイ・ポラック氏です。

AIを使って研究を効率化できないかブレインストーミングした2人は、モーガン氏のような材料科学者が苦労している「論文を読んでデータを取得する」という作業にChatGPTを役立てることを思いつきました。

ポラック氏によると、材料科学者はデータセットにわずかな数字を追加するためだけに長い研究論文をダウンロードし、隅々まで読み込むことがよくあるとのこと。そこで、こうした時間のかかる作業を、論文を読んで情報を提供するのが得意なAIに委ねてみることにしました。

しかし、いかにChatGPTが強力と言えど、論文の全文からデータを探して抽出するよう頼むのはまだ荷が重すぎます。そこでポラック氏は、ChatGPTに一文ずつ確認し、そこに必要なデータが含まれているかどうかを判断するよう依頼してから、表形式でデータを出力するよう指示しました。こうすることで、人間の科学者が表と文を見てきちんと関連性のあるデータが取り出せているかをチェックできます。

このテクニックは約90％の精度を誇り、ポラック氏らはChatGPTを使って金属ガラスの臨界冷却速度のデータベースを構築することに成功しました。ポラック氏らはこの成果を、プレプリントサーバーのarXivで公開しています。

[2302.04914] Flexible, Model-Agnostic Method for Materials Data Extraction from Text Using General Purpose Language Models
https://doi.org/10.48550/arXiv.2302.04914

AIで論文を読む手間を99％削減できたポラック氏らですが、さらなる精度の向上と完全な自動化に向けて、次のやり方に取り組みました。それが、AIに効率的に答えを生成させるための質問や指示を組み立てる「プロンプトエンジニアリング」です。

モーガン氏はこのプロンプトエンジニアリングに取り組んだ印象を、「最初は、妙なやり方もあるものだなと感じました。というのも、これは伝統的なプログラミングではないし、AIとの対話法も人の言葉に近いものだったからです。AIにデータを抽出させ、普通の文章を見て問題ないと確認させるというのは、私が普段コンピューターをトレーニングするやり方というよりは、子どもに正しい答えを導き出すよう教えるのに近いと思いました」と振り返っています。

研究チームはプロンプトエンジニアリングを駆使し、AIが抽出したデータをAIに見直させ、間違っている可能性を見つけ出させるための一連の質問を考案しました。こうしてデータの再確認を繰り返し行うことで、ChatGPTはほぼ全てのケースで、間違ったデータを特定することができるようになりました。

「ChatExtract」と名付けられたこの手法は、ほとんどの場合で人間に匹敵するか、または人間を上回る可能性もある90％以上の適合率と再現率を出すことに成功したとのこと。ポラック氏とモーガン氏は、これも論文にまとめて2023年3月に公表しています。

[2303.05352] Extracting Accurate Materials Data from Research Papers with Conversational Language Models and Prompt Engineering -- Example of ChatGPT
https://doi.org/10.48550/arXiv.2303.05352

ポラック氏はChatExtractについて、「最も重要なのは、AIが誤ったデータを特定することができる点です。修正方法は分からないかもしれませんが、少なくとも事実とは異なるデータを取得してしまう心配がないのです。また、多くの苦労や深い知識を必要としない点も重要です。以前までは、このようなことをするには何百行ものコードを書かなければならず、書いてもあまりいい結果は得られませんでした。しかし今では、ChatGPTのようなツールのおかげでこのような能力が大幅に向上しました」と説明しています。

モーガン氏は、AIが大学院生や科学者などの研究者に取って代わるわけではないと考えています。むしろ、AIというツールの利用によって、研究者はこれまで時間や資金、人員の不足でできなかったプロジェクトを進めることができるようになるとのこと。

AIと科学の今後について、モーガン氏は「これまで、私たちはGoogleやその他の検索ツールで論文や資料を探し、それらを読んでデータを抽出することで特定の分野の研究を行っていました。しかし、今では大規模言語モデルを使ってある事柄に関する情報を収集し、私たちが編み出したようなテクニックを使って数時間以内にデータベースを構築することができます。少し前なら、何日もかかってしまって研究が遅れたり、研究の方向性がぶれてしまったりしかねない情報収集がAIで可能になったのです」と語りました。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2023年05月04日 20時00分00秒 in サイエンス, Posted by log1l_ks

You can read the machine translated English article here.