大規模言語モデル(LLM)の臨床応用が議論される中、その活用例は「特定のワークフローの一部」に制限され、患者と臨床医への長期的なサポートには至っていない。米国マス・ジェネラル・ブリガム病院グループのチームによる最新の研究では、「ChatGPTが診断、検査、そして疾病管理に至るまでの臨床シナリオ全体に渡る意思決定を支援する能力」を検証している。
Journal of Medical Internet Researchに発表されたこの研究では、36の臨床シナリオを元に、ChatGPTを用いて実際の患者診察をシミュレートし、得られた最終診断や疾患管理戦略を評価した。全体を通じた評価結果では71.7%、最終診断においては76.9%の精度を示した。一方、初期鑑別診断における精度はワークフロー全体の中で最も低く、60.3%であった。
著者のMarc Succi氏は「現状で比較可能なベンチマークは存在しないが、本研究でのChatGPTによる臨床意思決定の精度は、新たに医学部を卒業したインターンやレジデントと同等のレベルと推定している。特にChatGPTは初期鑑別診断で苦戦しており、これは人間の医師が真に価値を発揮する領域であることを再認識させられた」と語っている。
参照論文:
関連記事: