AIモデルは人間と同様、診断に結びつく近道(ショートカット)を探す傾向があるが、これが誤診や誤った関連の抽出につながる可能性があるという。米ワシントン大学の研究チームはこの知見を論文としてまとめ、今週、Nature Machine Learningから公開した。
本研究論文によるとこの研究チームは、胸部レントゲン画像からCOVID-19を識別するために近年提唱された複数のAIモデルを検証している。対象モデルは、医学的機序に基づく病理学的特性を学びCOVID-19を識別しようとするのではなく、眼前のデータから効率的に識別するためショートカット学習に依存し、医学的には無関係な要因との関連を抽出していることを明らかにした。モデルは臨床的に重要な指標を無視し、各データセットに固有のテキストマーカーや患者位置などの特性さえ優先していたとのこと。
ショートカット学習は医学・病理学的判断に比して堅牢ではないため、別データセットにおいて十分には一般化されない可能性が高い(汎化性能が低い)。同大学の公式ニュースリリースにおいて、筆頭著者であるAlex DeGrave氏は「臨床医は一般的に『AIモデルは疾患特異的な画像パターンからCOVID-19を識別しているはずだ』と考えている。しかし、ショートカットに依存して学習したシステムでは、例えば高齢者の方がより罹患リスクがあるので疾患群だろう、といったように短絡的な根拠に基づく明らかな誤診を導いている可能性がある」とする。
ショートカット学習自体は誤りではなく、完全に除外することは機械学習の利点を奪うことにもなる。ただし、医学領域においてはショートカット学習が示す関連性は「医学的に予期し得ないもの」である可能性があり、透明性の欠如による不適切な診断は大きなリスクを内包していると言える。
関連記事: