米MITの研究によると、治療の推奨を行うために導入される大規模言語モデル(LLM)は、カルテ内の誤字や余分な空白、性別情報の間違い、不明確でくだけた言葉の使用など、臨床以外の情報によって診断精度が大幅に低下する可能性があるという。本研究結果はACM Conferencesで発表された。
著者らはまず、患者のテキスト情報に対し「性別入れ替え」「文調の強弱付け」「スペース挿入・大文字化などの構文的変化」という三種類の意味を歪めないテキストのずれを定義。「OncQA(腫瘍患者データ)」と「r/AskaDocs(Reddit上の健康相談データ)」の2つの静的データセットと、USMLE準拠の対話型コホートをGPT-4、Llama-3-70B/8B、Palmyra-Medの4モデルに入力し、テキストのずれを含めない場合と含めた場合で診療アドバイスや診断結果がどう変わるかを調べた。その結果、テキストのずれを加えただけで治療推奨度が7〜9%変わり、診断の正答率が約7%低下し、特に女性へのアドバイスが男性に比べて大きく変わる傾向が見られた。
「非臨床的な文言や誤りが、LLMの臨床判断にこれほど大きく作用するとは予想外の結果だった。AIシステムの導入前にこうしたテストを含む厳密な堅牢性評価が不可欠だ」と著者らは述べた。今後は、実際の患者による入力データや医師アノテーションによる検証を拡充し、LLMが「推定性別」など暗黙の手がかりに依存するバイアスをさらに解明することが期待される。
参照論文:
The Medium is the Message: How Non-Clinical Information Shapes Clinical Decisions in LLMs
関連記事: