米カリフォルニア大学サンタバーバラ校などの研究チームは、不正確な医療データがAIに供給された時、アルゴリズムにもたらされる影響とその危険性を調査している。同チームからの最新プレプリント論文を紹介する。
arXivにて公表されたチームの論文“Impact of Medical Data Imprecision on Learning Results”によると、データの不正確さがAIアルゴリズムに与える影響を定量するため、不正確さの程度を制御するパラメータを用いた新しいモデルを設計したという。このモデルは比較実験を行うための不正確なサンプルを生成することができる。研究チームはこれらを利用し、甲状腺機能に関する臨床試験データベースにおいて、不正確データに基づいたトレーニングとテストを繰り返した。結果として不正確データから得られたアルゴリズムは、各種ホルモンレベルを「異常に低く、あるいは異常に高く」のいずれにも予測し、元データ次第で容易に不安定な結果を導くことを示した。
結果自体は極めて自明に見える一方、研究チームは「アプローチをより一般化することで不正確さを考慮に入れた堅牢なモデルの構築が可能」であることを指摘し、成果の重要性を強調する。MITの研究者であるLeo Anthony Celiらは過去に「AIの可能性は広く示されているが、実際の医療システムにおいては、AIへの熱量を大幅に下げて取り扱うか、あるいはデータインフラストラクチャに大規模投資して真っ向から取り組むかだ」と述べるなど、元データの信頼性が医療AIの今後を大幅に左右することに言及している。