AIは人間の医師よりもうまく認知機能低下の兆候を検知できるのか？



認知症は世界中の患者やその家族に深刻な影響を与えており、医師らが認知症の初期兆候を察知して適切な予防や治療につなげることが必要とされています。新たにマサチューセッツ総合病院の研究チームが、医師の診察記録をスキャンして認知機能低下の兆候を特定するAIツールを開発しました。



今回、研究チームは医師の診察記録をスキャンし、認知機能に関してより綿密な注意が必要である患者にフラグを立てるAIツールを開発しました。AIツールの構築では、単一のAIではなく5つの協調的なAIプログラムを作成し、互いの作業をレビューして改善していく「エージェント」的なアプローチを採用しました。





AIツールはMetaのLlama 3.1をベースに作成され、患者の診察記録や経過、退院サマリー(退院時要約)などを含む3年間分の診療記録でトレーニングされました。これらのデータは実際に病院から収集されたもので、臨床医によって診断記録に認知機能関連の懸念がないか精査されていました。



まずは、認知機能に関する懸念事項が記載されているカルテとそうでないカルテをバランスよくAIに提示し、臨床医が付けたラベルと91％の精度で一致するまでトレーニングしました。続いて完成したAIツールに、トレーニングに使ったものとは異なる別のデータセットを与え、どれほどの精度で認知機能に関連する懸念にフラグを立てられるのかをテストしました。なお、2つ目のデータセットでは実際のケアを反映するため、臨床医によって認知機能に懸念があるとされる診察記録は全体の3分の1程度でした。





テストの結果、AIツールの感度は約62％まで低下しました。つまり、臨床医が「認知機能低下の懸念がある」とフラグ付けした診察記録について、10件中4件は見逃していたというわけです。この結果だけを見るとAIツールは失敗したように見えますが、研究チームが診察記録とAIツールの診断を再調査したところ、AIツールと人間の臨床医が異なる方法で分類を行っていたことがわかりました。



研究チームは、AIツールと人間で異なる結果が出た16件の診察記録について、再び臨床医にレビューしてもらいました。この際、臨床医はどの診察記録にAIがフラグを立てたのか、あるいは人間がフラグを立てたのかは知らされていませんでした。



レビューの結果、臨床医は7件(約44％)のケースについて、人間による元の判断よりもAIツールによるフラグを支持しました。論文の共著者で、マサチューセッツ総合病院の神経学准教授であるフセイン・エスティリ氏は、「これは最も驚くべき発見のひとつです」と語っています。



エスティリ氏によると、AIはたとえ診察記録に記憶障害や思考の混乱、患者の思考様式の変化が記されていたとしても、それが直接的でない場合はフラグを立てませんでした。つまり、AIは臨床医よりも診断基準を保守的に適用していたため、臨床医の診断と異なる結果が出たというわけです。



論文の共著者でマサチューセッツ総合病院神経科准教授のリディア・モウラ氏は、「AIツールの目標は臨床判断に取って代わることではなく、スクリーニングの補助として機能することです」とコメント。臨床医が不足している状況において、AIツールはどの患者をフォローアップするべきかを判断するのに役立つ可能性があるとしています。





なお、今回開発されたAIツールは単一の病院ネットワークから得られたデータに基づいているため、記録方法が異なる環境では必ずしも正確な結果が出ない可能性があります。



エスティリ氏によると、AIツールは医師の定期診察中にバックグラウンドで静かに動作し、潜在的な懸念事項を指摘することを目的としているとのこと。「医師が座ってAIツールを使用するという概念ではなく、AIシステムが臨床記録の一部として、医師が何を見ているのかやその理由についての洞察を提供するのです」とエスティリ氏は述べました。

