皮膚がん診断におけるAIの役割が進化する一方で、学習用の画像データセットに黒人・アジア系など「肌の色が濃い人々の皮膚画像」が不足しているという指摘が相次ぐ。英オックスフォード大の研究者らによって、皮膚がん画像データセットの不備を指摘する調査結果が学術誌Lancetに報告されている。
本研究は英国がん研究機構(NCRI)の年次フェスティバルで発表され、NCRIのリリース内でも紹介されている。研究チームは、世界中のフリーアクセスで提供される21の皮膚病変画像データセット、延べ10万枚以上の画像を精査した。21のデータセットのうち、「病変部画像」と「皮膚拡大鏡検査(ダーモスコピー)画像」の両方が含まれているのは2セットのみであった。14のデータセットには撮影された国の情報が提供されており、そのうち9のデータセットは欧州諸国の画像が含まれていた。肌色の情報が添付されている画像は2,436枚とごく一部に過ぎず、褐色の肌が10枚のみ、濃い褐色または黒色の肌は1枚のみであった。また、民族性の情報についても1,585枚にしか添付されておらず、アフリカ系・アフロカリビアン系・南アジア系は1人も含まれていなかった。
研究を主導したDavid Wen氏は「我々の調査では、大部分のデータセットに重要な情報が含まれていないことを明らかにした。このような画像から開発されたプログラムは、様々なグループ、特に肌の色が濃い人にどのように機能するか不明である。そのような人たちがAI技術から除外されることや害を与えられる可能性も懸念される。医師養成の要となる医学書にさえ、黒人・アジア系の人々の写真が十分に掲載されていないことを私たちは既に認識していたのではないか」と語る。このような事態を防ぐため、Wen氏らはAI開発に使用するヘルスデータの品質基準を作っていきたいとするとともに、肌色の多様性を認識し、AIが全ての患者に恩恵をもたらすような研究の継続を期待している。
関連記事: