AIアルゴリズムの訓練データが米国3つの州に偏っている問題

新薬開発では、臨床試験参加者が特定の集団に偏ると、別の集団で効果が不十分となったり副作用が多く発生するようなことがよく起きた。その歴史を経て、近年では試験参加者の多様性を重視するのが当たり前となっている。しかし、医療AI開発でも同じ過ちが繰り返されようとしているのかもしれない。データセットの性別不均衡によるバイアス問題は以前に紹介した(過去記事)。

スタンフォード大学のニュースでは、米国におけるほとんどのAIアルゴリズム開発が3つの州の患者データセットに偏っていることを示した論文を紹介している。同大学の研究グループは「ディープラーニングアルゴリズムに使用されたトレーニングデータの地理的分布」について学術誌 JAMAに発表した。査読付き学術誌に投稿された近年5年間の研究論文を調査したところ、71%の論文でカリフォルニア・マサチューセッツ・ニューヨークの3州のいずれかの患者データを使用していた。また60%の研究では3州いずれかからのデータのみに限って利用していた。一方、34州からは全くデータ提供がなく、残り13州からも限られたデータしか提供されていなかった。

同研究では、この地域的に偏ったデータセット利用のAIが、望ましくない結果を示したかどうかについては明らかにしていない。しかし、革新的なAIアルゴリズム開発には、より大規模で多様なデータセットが必要であることは誰もが認めるところであろう。筆頭著者であるAmit Kaushal氏は「AIが臨床医学に参入しようとするときに、かつてと同じ誤りを繰り返すのを30年40年も待つべきではありません。問題の向かう先を見定め、前もって対処すべきです」と語っている。

前の記事爪の毛細血管から自己免疫疾患の診断を助けるAIソフトウェア
次の記事ジョンスホプキンス大学 – COVID-19患者の予後を予測するAIアルゴリズム
TOKYO analytica
TOKYO analyticaはデータサイエンスと臨床医学に強力なバックグラウンドを有し、健康増進の追求を目的とした技術開発と科学的エビデンス構築を主導するソーシャルベンチャーです。
The Medical AI Timesにおける記事執筆は、循環器内科・心臓血管外科・救命救急科・小児科・泌尿器科などの現役医師およびライフサイエンス研究者らが中心となって行い、下記2名の医師が監修しています。

1. M.Okamoto MD, MPH, MSc, PhD
信州大学医学部卒(MD)、東京大学大学院専門職学位課程修了(MPH)、東京大学大学院医学系研究科博士課程修了(PhD)、ロンドン大学ユニバーシティカレッジ(University College London)科学修士課程最優等修了(MSc with distinction)。UCL visiting researcher、日本学術振興会特別研究員を経て、東京大学特任研究員など。専門はメディカルデータサイエンス。

2. T.Sugino MD
防衛医科大学校卒(MD)。大学病院、米メリーランド州対テロ救助部隊を経て、現在は都内市中病院に勤務。専門は泌尿器科学、がん治療、バイオテロ傷病者の診断・治療、緩和ケアおよび訪問診療。泌尿器科専門医、日本体育協会認定スポーツドクター。