臨床利用を見据えた機械学習モデルのうち、現在開発されているほとんどのモデルが、レトロスペクティブなデータで開発・評価されており、実際の臨床ワークフローにおいて評価されているものは限られている。ベルギー・アントワープのチームから公表された新しい研究では、臨床リスク予測モデルを異なる3つの医療機関で評価した示唆的研究成果を示している。
Journal of Medical Internet Researchからこのほど公開された研究論文では、せん妄・敗血症・急性腎障害について、レトロスペクティブに構築したリスク予測モデルを、異なる3つの医療機関に導入し、前向きにその性能を検証した。各医療機関のデータを用いたモデルキャリブレーションにより、AUROCの平均値は、レトロスペクティブデータにおける性能検証からわずか0.6ポイントの減少と、ほぼ同等の性能を示していた。一方、モデルの病院間適用によってはその性能が著しく低下しており(平均AUROCとして8ポイント低下)、モデル展開先のデータによるキャリブレーションの重要性が改めて示唆されている。
実環境における良好なパフォーマンスを保持するには、レトロスペクティブデータで構築された機械学習モデルを、利用施設におけるデータによってキャリブレーションすることが求められる。著者らは「各病院に特化し、性能が保証された予測モデルを生成するため、モデル開発の汎用プロセスを設計することが重要」である点を強調している。
関連記事: