医療LLMの診断精度は「人間との対話」を介して大きく低下する

2025年6月23日

近年、ChatGPTなどの大規模言語モデル（LLM）は医師向け試験で高得点を出し、初期診断や健康相談への応用が期待されている。しかし、こうした「医療知識」ベンチマークが、一般の人が実際に使う際の正確性を保証するわけではない。英オックスフォード大学の研究者はこのほど、医療知識に優れる3種のLLM（GPT-4o、Llama 3、Command R+）が、一般人にどれほど効果的に医療アドバイスを提供できるかを検証した。

英国在住の1,298名の一般人を対象に、日常的に遭遇し得る10パターンの症例シナリオを提示。「緊急度の判断」と「想定される疾患の列挙」を課題とし、参加者をLLM3種のいずれか、または自由な方法で情報収集する群（対照群）に無作為割り付けた。LLM単体では疾患同定率94.9％、緊急度判定率56.3％と高精度だったが、参加者がLLMを使った際の正解率は疾患同定率34.5％以下、緊急度判定率44.2％以下にとどまり、対照群と差がない結果となった。対話ログを分析すると、LLMは対話中に65.7％の場面で正答候補を示していたものの、参加者が必要情報を聞き出し切れない、または提示された情報を正しく利用できず、最終回答に至らない例が多かった。一方、医師試験問題を用いたベンチマークやLLM同士の対話シミュレーションでは高精度かつ参加者実験との相関が低く、実運用の失敗を予測できなかった。

研究者は「専門家レベルの知識保持だけでは、一般ユーザーとの対話を介した医療相談には不十分」と警鐘を鳴らした。今後は、一般向け医療チャットボットを導入する前に、実際の人間を用いた対話テストやユーザー行動分析を体系的に行うことが不可欠と考えられる。また、情報の抜け漏れを補うインタラクション設計や、正しい提案を確実にユーザーに伝える説明機能の強化など、対話性能を向上させる技術開発が急務とされている。

参照論文：

Clinical knowledge in LLMs does not translate to human interactions