大規模言語モデル(LLM)のパフォーマンスは、「プロンプト」と呼ばれる指示文に大きく左右される。この課題に取り組むため、米スタンフォード大学とデューク大学の研究チームは、「プロンプト設計の改善を通じて、ChatGPTによる患者病歴要約の質を向上させる」という研究を行っている。
JAMA Internal Medicineにリサーチレターとして掲載された同研究では、タイプの異なる胸痛患者3例についてChatGPTによる病歴要約を試みた。初めに、各症例について10個の病歴要約を作成し、エラーの有無を確認し、プロンプトを修正する、というプロセスを2回実行した。最終ラウンドで生成された各病歴要約に対して、内科レジデントが作成した4つの病歴要約を比較の対象として、30名の内科医が盲験評価を行った。病歴の詳細度、簡潔さ、構成に関する合計15点の評価を行った結果、レジデントによる作成(平均12.18点)に対して、ChatGPTによる作成(平均11.23点)は、わずか1点未満の差しかなかった。なお、要約者がレジデントかChatGPTかの識別精度は61%であった。
初期の質の低いプロンプトでは、患者の年齢や性別など、ソースに存在しない情報を作り出す「幻覚(hallucination)」現象が観察された。研究チームは、LLMが臨床環境で安全に使用されるためには、臨床医とAI開発者が密接に協力し、堅牢で最適化されたプロンプトの設計が必要であると指摘している。
参照論文:
関連記事: