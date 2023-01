2023年01月24日 09時10分 ソフトウェア

対話型AI「ChatGPT」が共著者として名を連ねた疑惑の研究論文の内容とは?



人間のような受け答えが可能な対話型AI「ChatGPT」は人間の利益のためにさまざまな利用方法が考えられる一方で、人間の代わりに試験受験や論文執筆を行わせられることを問題視する声もあります。既に研究論文の著者にChatGPTが加わった論文があるとして学術誌のNatureがその実態を報告していますが、そのうちの1つが、大規模言語モデルが医学上の支援・教育にどのように貢献できるのかを測るものでした。



Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models | medRxiv

https://doi.org/10.1101/2022.12.19.22283643



ChatGPTが共著者として参加した論文の1つがマサチューセッツ総合病院とハーバード大学医学部麻酔科に所属するティファニー・クン氏らが執筆したもので、内容としては、United States Medical Licensing Exam(USMLE)と呼ばれるアメリカの医師免許試験をChatGPTに受けさせるものでした。





USMLEは基礎科学や臨床推論、医療管理、生命倫理といった、医師の知識基盤のすべてをカバーする人間向けの試験です。複雑な臨床データを基に文章を記述する問題も含まれていますが、ChatGPTは豊かな言語表現が可能なため、ChatGPTに解答させることが可能だとクン氏らは考えたそうです。



クン氏らは、一般に公開された376問の試験問題からすでにChatGPTに学習された可能性のある問題を排除し、最終的に305問の項目をピックアップ。それらをChatGPTに入力して解答させ、解答を2人の医師によって採点させました。





その結果、ChatGPTは94.6%の一致率で問題内容に沿った解答を出力し、すべての項目で50%以上の正答率をたたき出したとのこと。そのうちのほとんどが正答率60%を超えていたそうですが、USMLEの合格基準は毎年正答率約60%程度であることから、ChatGPTはギリギリ合格圏内に収まるだろうとのことです。



また、解答内容の新規性や独自性、妥当性を満たすかどうかを綿密に検討したところ、全体として88.9%の解答で少なくとも1つの有意な洞察をもたらしたとされています。このことから、ChatGPTは医学を学ぶ人々を支援できる可能性があること、解答から新しい知見や改善策を得ることができる可能性があることなど、さまざまな利点があるとクン氏らは主張しています。



また、ChatGPTの精度はUSMLEの中で最も難しいとされる「Step1」の点数が最も低かったとのこと。この原因は、人間が医学を難しくて不透明なものだと認識し、特定の題材に関する表現が不足しているために起こった「モデルの学習不足」にあるかもしれないとクン氏らは話し、AIの能力が人間の能力に左右される脆弱(ぜいじゃく)性があると指摘しています。



なお、Step1は医学部で2年の教育課程を終えた学生が受験するもので、勉強のために総じて約300~400時間が費やされるそうです。





クン氏らは「ChatGPTの目覚ましいパフォーマンスに触発され、仮想慢性肺疾患クリニックであるAnsible Healthの臨床医はワークフローの一部としてChatGPTを試し始めています。安全かつ個人を特定できない方法で説明を入力し、専門用語が多い記録を患者に分かりやすく示すことや、曖昧で診断が難しい症例に直面したときにブレインストーミングを行うことなどに使用しており、全体として文書作成と患者ケアに要する時間が33%減少したことが報告されています。これは、ChatGPTのような自然言語処理モデルが成熟していることを示す初期の重要なシグナルであり、まもなく臨床ケア全体に影響を与え、真に思いやりがあり、拡張性のあるヘルスケアを提供する能力を高めると信じています」と述べました。



なお、本研究の共著者としてクン氏、ブラウン大学のモーガン・チーザム氏の次にChatGPTも正式に名を連ねています。