GPT-4が眼科の医療試験で人間の専門医に匹敵するスコアをたたき出したとの研究結果
2018年に人間の医師と同等の精度で目の病気を診断できるAIが登場し、糖尿病が関連する眼病に至っては専門医より正確な診断が可能となるなど、AIは眼科の分野で目覚ましい進歩を遂げています。OpenAIの言語モデルを使用した新しい研究により、AIは目の状態を評価することにかけては人間の眼科医に引けを取らないことが確かめられました。
Large language models approach expert-level clinical knowledge and reasoning in ophthalmology: A head-to-head cross-sectional study | PLOS Digital Health
https://journals.plos.org/digitalhealth/article?id=10.1371/journal.pdig.0000341
OpenAI’s model all but matches doctors in assessing eye problems
https://www.ft.com/content/5b7a76be-467c-4074-8fd0-3e297bcd91d7
GPT-4 performed close to the level of expert doctors in eye assessments
https://www.engadget.com/gpt-4-performed-close-to-the-level-of-expert-doctors-in-eye-assessments-131517436.html?guccounter=1
2024年4月17日付の学術誌・PLOS Digital Healthで発表した今回の研究で、研究者らはOpenAIのGPT-4とGPT-3.5、GoogleのPaLM 2、MetaのLLaMAを87問の多肢選択式の問題でテストしました。
問題は、眼科の開業医や眼科専門医トレーニングプログラムの研修生などが受験する「FRCOphth Part 2」の教材から出題されましたが、この教材はインターネット上で公開されていないものなので、AIがあらかじめ学習している可能性は低いとのこと。また、画像などテキスト以外の要素を含む設問は除外されました。
そして、同じ試験を眼科の専門医5人、眼科の研修医3人、眼科は専門外の若手医師2人に受けさせて、大規模言語モデルのパフォーマンスと人間の医師のテスト結果を比較しました。
その結果、GPT-4は87問中60問を正解し、研修医の平均点である59.7点をわずかに上回りました。また、専門医の平均点の66.4点には届きませんでしたが、専門医の中で最も低い点数だった56点は上回りました。他のAIも健闘し、PaLM 2は49点、GPT-3.5は42点のスコアを出して、若手医師の平均点の37点を大きく上回りました。AIで最低点だったのはLLaMaの28点でした。
GPT-4は一次的想起を必要とする問題、つまり純粋な知識を問う問題でも、情報の補間・解釈・処理といった高次の推論を必要とする問題でも、同様に優れた結果を示しました。
研究チームは、目のスキャン画像の解析のような限定的な能力をテストする従来のAI医療研究とは異なり、今回の研究ではAIと現役医師の能力が直接比較されている点が注目に値するとしています。
論文の筆頭著者であるケンブリッジ大学のArun James Thirunavukarasu氏は、「この研究により、目の健康に関する大規模言語モデルの知識と推論能力は、今や専門家とほとんど区別がつかないことが示されました」と述べました。
ベテランの医師でも見逃す可能性がある早期の乳がんにフラグを立てるなど、AIが診断に役立つことが次々に証明されてきたことで、臨床現場でAIを採用する機運が高まっています。その一方で、AIには誤情報を出力する幻覚の問題があるため、研究者らは誤診が患者に与える影響やそのリスクの見極めを課題として挙げています。
今回の研究には携わっていないユニバーシティ・カレッジ・ロンドンの医療向け人工知能学者で、ロンドンの病院の眼科医でもあるピアース・キーン氏は、メディアの取材に対して「この最新の研究結果はエキサイティングで大変面白い」とコメントしました。
医療AIの可能性を追究しているキーン氏ですが、2023年に発表した自身の研究で大規模言語モデルに黄斑変性症についての質問をしたところ、でっち上げの参考文献を提示された経験があるとのこと。
こうした点を踏まえて、キーン氏は「AI技術を臨床現場に導入するには、さらなる研究が必要でしょう。私たちには、このテクノロジーがもたらす大きなメリットに対する興奮と、警戒心や疑念との間のバランスを取ることが求められています」と話しました。
・関連記事
対話型AI「ChatGPT」が生成した「患者への回答」は人間の医師による回答より好まれることが研究で判明 - GIGAZINE
医師と患者の会話をAIでメモや要約に変換する技術が一大ビジネスとなりつつあるとの報告 - GIGAZINE
Googleの医療面接特化AI「AMIE」は人間よりも正確な診断が可能&患者への印象に優れるという研究結果が報告される - GIGAZINE
病院は「患者の命を救うAI」をどのように使用しているのか? - GIGAZINE
「AIによる医療診断の精度は人間の医者と同程度でしかない」という指摘 - GIGAZINE
・関連コンテンツ