AIを含むデータサイエンス関連技術の向上は、多面的な医学の発展に大きく寄与していることは疑いの余地が無い。一方で、あらゆる新知見の根幹となる学習データに、「特定集団が系統的に含まれていない事実」は、度々研究コミュニティからの指摘と警告がなされてきた。
このほどCancer誌から公開された、カリフォルニア大学サンディエゴ校からの研究報告では、米国国立がん研究所(NCI)が主導する臨床試験データベースであるNCI Clinical Data Update Systemを用い、臨床試験の参加者属性を仔細に分析している。NCIは臨床試験における多様性向上のため、種々の取り組みを行っていることを明らかにしているが、2015-2019年における実際の参加状況では、黒人およびヒスパニック系の患者は乳がんの臨床試験に参加する割合が高い一方、大腸がん・肺がん・前立腺がんの臨床試験では「著しく」参加者が少なかったとする。また、65歳以上の患者は乳がん・大腸がん・肺がんの臨床試験に参加していない傾向を認め、女性は大腸がんと肺がんの臨床試験に取り込まれにくい事実も併せて明らかにしている。
研究チームは、過去との比較において「臨床試験参加におけるマジョリティとマイノリティの格差は縮小した」ことに言及する一方、「依然として十分な登録のみられない属性が領域ごとに存在しており、さらなる努力が必要」である点を強調する。学習データにおける特定集団データの取りこぼしは一般化可能性を制限するとともに、当該属性における結果の不安定性を惹起することが危惧され、常に学習データの妥当性は適切なモニタリングを受け続ける必要がある。
関連記事: