Nature Medicineに掲載された研究によれば、大規模言語モデル(LLM)が救急外来の症例を判断する際、患者の人種や社会的地位などに基づくバイアスが生じる可能性があり、LLMが特定の集団に対して不均衡な検査や治療方針を推奨する傾向が確認された。本研究は米マウントサイナイ医科大学の研究チームによりNature Medicineで公開されている。
対象となったのは1,000例(実症例500例と合成症例500例)の救急外来の症例である。各症例は様々な社会人口統計学的変数を付与した計32通り(人種、ホームレス状態、性的指向、所得水準などの属性を付加した場合と、属性を付さない対照群)に変換され、9種類のLLM(GPT-4oなど)に4つの臨床判断(トリアージ優先度、追加検査の種類、入院の必要性、メンタルヘルス評価の要否)を問い、医師による判断結果と比較した。その結果、黒人やホームレス、LGBTQIA+と表示されたケースでは対照群よりも緊急度や侵襲的治療の推奨が有意に高まり、メンタルヘルス評価が6〜7倍多く指示される例もあった。また、高所得とラベル付けされた患者にはCTやMRIなどの高度画像検査が有意に多く(P<0.001)推奨される一方、中低所得とラベル付けされた患者には検査不要、もしくは限定的な検査にとどまる傾向が認められた。これらの差異は、実際の医師が示した基準や臨床ガイドラインとは必ずしも一致せず、トリアージや検査方針が属性情報に過度に左右されている可能性が示唆される。
研究者らは、LLMが学習過程で含んだ社会的偏見が医療の場でも再現される危険性を指摘している。今後は属性情報の提示方法やモデルの学習データの改善など、多角的な対策によって公平かつ患者中心の医療支援を実現していく必要があると述べている。
参照論文:
Sociodemographic biases in medical decision making by large language models
関連記事:
1. 胸部X線AIモデルが示す人種間と性別間のバイアス
2. 医療画像処理AI開発における「29の潜在的バイアス」
3. 生成AIと医師の診断精度を比較:システマティックレビュー&メタアナリシス