ChatGPTをはじめとする大規模言語モデル(LLM)ベースのAIチャットボットは、医学教育や臨床研修の補助ツールとして急速に普及しつつある。眼科領域では画像診断AIの研究は進んでいるものの、テキストベースのLLMが臨床推論をどの程度正確に行えるかは十分に検証されていなかった。インドの研究チームらが、眼科臨床症例問題で評価した結果を、Springer Natureが発行する学術誌「Eye」に発表した。
研究では、匿名化された患者記録をもとに眼科専門医2名が検証した34件の臨床症例問題を作成し、ChatGPT・Gemini・Meta AIの各AIモデルに入力した。回答は「診断精度」「鑑別診断の適切性」「治療方針の安全性」の3軸で0〜5点の評価基準を用いてスコアリングされた。結果、ChatGPTが最も高い総合スコアを示し、スコア4以上の高品質回答の割合が最多で、不適切な治療推奨は生じなかった。Geminiは中程度の成績、Meta AIはスコアのばらつきが最も大きく、複雑な症例での低得点回答が目立った。
今回の研究は、LLMチャットボットが眼科の臨床推論に一定の有用性を示す一方、先天性疾患・神経眼科疾患・複数病態が混在する複雑症例では全モデルで性能が低下した。著者らは、「AIチャットボットはあくまで補助ツールにとどめるべきであり、現時点では専門医の監督や臨床判断の代わりにはならない」と述べている。今後は眼科画像を組み合わせた評価や、教育現場への導入に向けた枠組みの整備が期待される。
参照論文:
関連記事:





















