マイクロソフトの研究チームは、医療用大規模言語モデル(LLM)が実際の臨床現場で行う診断プロセスを再現・評価する新たな枠組み「Sequential Diagnosis Benchmark(SDBench)」を開発した。従来の一問一答型テストでは捉えきれない、医師が問診→検査→診断を繰り返す臨床推論の流れを、304件のNEJM臨床病理会議(CPC)症例を使ってインタラクティブに実装した。これにより、最終的な診断精度だけでなく、検査費用という現実的なコストも同時に評価可能な環境も整えた。
arXivで発表された本研究によると、SDBenchは「Gatekeeper」(データ提供役)、「Diagnostic Agent」(診断行動役)、「Judge」(診断評価役)の三者エージェント構成を採用し、患者情報や検査結果を都度取得しながら最適な診断を行うよう設計された。アメリカ・イギリスの医師21名は平均20%の診断精度、検査費用約2,963米ドルを要し、未加工のGPT-4oなどは40~79%の診断精度、2,700~7,850米ドルのコスト範囲だった。ここに仮説立案をするLLM(複数のAIが意見を出し合うブレインストーミングのようなもの)や費用管理を担うLLM(例えば、最小のコストで最大の効果が得られる検査を考えるなど)を組み合わせると、OpenAIのo3モデルで80%(医師比4倍)の診断精度を維持しつつ検査費用は医師比20%、未加工AIモデル比70%削減に成功した。
「SDBenchのうなAIエージェントシステムは、AIによる診断支援の新たな地平を切り開く」と著者はコメントしている。今後は、日常診療に多い一般疾患を含むデータセットでの検証、画像診断を加えたマルチモーダル対応、さらには医療教育への応用を進める予定でとのことで、より公平で持続可能な医療資源の配分を支えるAI診断システムの臨床実装が期待されている。
参照論文:
Sequential Diagnosis with Language Models
関連記事: