米FDAが2015年から2020年までに承認した医療AI機器(130件)の評価プロセスを包括的に概観し、その限界について考察したコメンタリー論文が、米スタンフォード大学の研究者らによって学術誌 Nature Medicineに発表されている。
同論文によると、FDA承認を受けたAI機器のほぼすべて(130件中126件)は、FDAへの申請時には「後ろ向き研究」のみが実施された段階であった。特に高リスクの機器54件で「前向き研究」が実施済みのものは1件もなかった。また、検証された「施設数」が公表されていたのは41件のみで、そのうち4件は1施設のみ、8件は2施設のみでの評価であった。限られた施設のみで検証されたケースとして著者らは「X線画像から気胸を検出するAIモデル」を取り上げ、人種差などの患者属性によってモデルの性能が大幅に低下して格差が生じた点について考察している。
現状のFDA承認に対して、AIデバイスの性能を多施設で評価する観点や、標準治療と比較した前向き研究の実施について、著者らはより一層の拡充を期待している。そして、医療AI機器におけるFDA承認の限界を理解した上で、十分な市販後調査によって意図しない結果やバイアスについて理解を深め測定していくことを推奨している。
関連記事: