大規模言語モデル(Large Language Models; LLMs)は、医療情報の整理や文章生成に活用可能である一方、誤情報を再現するリスクが課題となっている。これに対し、米国の研究チームは、複数のLLMを対象に診療記録、退院要約、SNS投稿を用いた横断的評価を実施し、その成果をThe Lancet Digital Healthに発表した。
本研究では、診療記録や退院要約、健康関連のSNS投稿を対象に、意図的に各文章に対して医学的根拠のない情報を加えた。これらをAIへの入力文(プロンプト)として提示し、誤情報を訂正せずに受け入れる割合(受容率:Susceptibility)を定量的に評価した。その結果、LLMは全体の32%のケースで偽情報を訂正せず、正しい情報として扱った。文章の種類別の受容率は、退院要約で46%と高く、SNS投稿では約9%にとどまった。また、プロンプトの表現形式によっても傾向が変わり、人気の多い意見として提示した場合に受容率は12%に下がる一方、専門家の権威を示した場合は35%に上昇した。
これまで指摘されていたプロンプト内の誤情報がAIに反映される問題が、本研究により定量的に可視化された。研究者らは「今後は、LLMが誤情報に惑わされず正確な出力を生成できるよう、誤情報を含む文章を訓練データに組み込むなどの手法によってモデルの耐性を高める、いわゆるモデル免疫化(model immunization)が重要になる」と述べており、このような取り組みにより、臨床支援ツールとしてのAIの安全性と信頼性が向上することが期待される。
参照論文:
関連記事:




















