大規模言語モデル(LLM)が医療システムに組み込まれつつあるが、これらAIモデルには人種間格差を助長する恐れが指摘されている。米スタンフォード大学の研究チームは、各種AIチャットボットが黒人患者に関する様々な誤解やデマに基づく内容を回答し、情報を拡散する可能性を指摘した。
npj Digital Medicineに発表された同研究では、4つのAIチャットボット(ChatGPTと上位グレードのGPT-4、GoogleのBard、AnthropicのClaude)を検証している。各チャットボットに対して、現在では科学的に否定されている「人種に基づいた誤った医学知識」から9つの質問について、5回ずつ回答を生成させ、医師が回答内容を評価した。結果として、いずれのモデルも一貫した正確な回答の生成に失敗しており、腎機能や皮膚の厚み、肺活量といった内容に関して、過去の医学的な誤解を再生産していることが確認された。
研究チームは本研究の結果から、「LLMが人種差の誤解を完全に根絶するには、さらに多くの調整が必要で、まだ臨床に使用して技術を統合していく準備が整っていない」とした上で、「全ての質問に完全な回答を行うことは不可能ではあるが、最低限の患者の安全性を確保するには、普及に先立ったより大規模な定量的研究を必要としている」と指摘した。
参照論文:
Large language models propagate race-based medicine
関連記事: