昨今、生成AIが「医療診断の意思決定支援」に実質的な貢献を果たし得るかについて、多くの議論が重ねられてきた。こうした中、大阪公立大学を筆頭とした研究チームが、大規模言語モデル(LLM)の医療診断精度を評価した83件の研究を対象に、システマティックレビューとメタアナリシスを実施した。
Natureの関連誌であるnjp Digital Medicineから公開された研究論文によると、研究チームはMEDLINEやScopusを含む複数の文献データベースから18,000件超の論文を検索し、最終的に83件の「診断タスクに対する生成AIの検証研究」を対象に統計解析を実施した。解析の結果、生成AI全体の診断精度は52.1%、非専門医との差はわずか0.6%であり、統計的有意差は認められなかった(p=0.93)。一方、専門医と比較した場合は、AIの診断精度が15.8%劣ることが明らかとなった(p=0.007)。多くの研究が高いバイアスリスク(小規模な検証データセットや、学習データの不透明さなど)を含んでいたが、低リスク研究に限定しても全体傾向に大きな変化はなかったとしている。
本研究は、生成AIが現時点で専門医の代替にはなり得ないものの、非専門的な診断支援や医学生・研修医への教育補助ツールとしての有用性を持つことを示唆している。また、特定のモデル(GPT-4oやClaude3など)は非専門医と同等、またはそれ以上の性能を発揮しており、今後のモデル開発の方向性として、医療分野に特化した調整と外部検証の強化が重要であるとしている。
参照論文:
関連記事: