妥当な医科学研究の成果には、異なる条件・環境から取得したデータでも同等の結果が示されることが求められる。つまり、多様なデータに基づく検証作業は、科学的エビデンスの構築には必須のものと言える。一方、近年のAI医学研究においてはこのプロセスを軽視する流れもみられ、その危険性を指摘する研究者達がいる。
Health Imagingが8日報じたところによると、韓国の研究グループが516の出版済みAI医学研究を調査したところ、外部データを利用した妥当性の検証を行っていたのはわずか6%であったという。本来的にアルゴリズムが臨床的に妥当であることを示すには、追跡研究・多施設研究・前向きデータ収集の3点は欠くことができないとしている。
AIアルゴリズム構築では多くの場合、単一のデータセットを、機械学習に用いるトレーニングセットと、それによって得られたアルゴリズムを検証するためのテストセットに分ける。これらの2セットを切り分けることで妥当性を担保しているが、出自の同じデータは同質であることが多い。外部データによる検証さえ経ていない研究成果が、優れたアルゴリズムとして世に受け入れられることは、実に多大な危険性を秘めている。