ChatGPTをはじめとする大規模言語モデル(LLM)の日常臨床への導入では、医療アドバイスが患者に誤解を与えないよう、モデルの適切な検証が必須となる。米スタンフォード大学の眼科チームは、「眼科医とChatGPTのアドバイス」を比較した。
JAMA Network Openに発表された同研究では、米国眼科学会に所属する眼科医が患者の質問に回答するオンラインプラットフォーム「Eye Care Forum」から得られたデータを利用した。分析のために選定された200の質問と回答をもとに、ChatGPT(バージョン3.5)が生成した回答を比較分析したところ、ChatGPTの回答と医師の回答を見分ける精度は61.3%であった。また、専門家による評価では、情報の正確さ、医学的コンセンサスとの一致性、患者に危害を与える可能性、の観点でChatGPTと眼科医の間に有意差を認めなかった。
この研究は、LLMによる回答品質が認定眼科医に匹敵するという希望をもたらす一方で、LLMの潜在的な欠点も指摘している。特に、これらのモデルで「幻覚(hallucinations)」としてよく知られる誤った情報の生成は、本研究でも「白内障の手術後に眼球が縮小する可能性がある」といった誤った回答例として確認された。研究チームは、「現状でのLLMの利用は、医師の判断を代行する患者向けAIではなく、医師を支援する目的での利用が理想的である」と示唆している。
関連記事: