英Babylon HealthとUniversity College London(UCL)の共同研究チームは、複雑に絡み合うデータから「単なる相関ではなく、因果関係を意味する関連」を抽出できる信頼性の高い手法を開発した。本研究論文は、最も権威ある人工知能学会の1つ「AAAI」(米人工知能学会)にも採択されている。
UCLの公表によると、本研究では量子暗号に着想を得、古く・重複し・不完全なデータセット群を融合することにより「どの統計学的相関が医学的な因果関係を意味しているのか」を高い信頼度で抽出する手法を開発したという。物理理論においては、全てのものは時間経過に伴って「乱雑で複雑に」なるため、原因は常に「より乱雑で複雑”ではない”」ことになる。研究を率いたLee博士は「取得したデータセットにおいて、それぞれの変数に複雑度評価を与えれば、どれが原因かを見つけることはできる。ただしこれは1つのデータセットにしか適用できない。我々が望んだのは、仮にギャップのあるデータセット群であっても複数を結びつけ、研究者の医学的関心に応えられるものだ」としている。
研究者らは、このAIを乳がんとタンパク質のシグナル配列に関するデータセットで検証しており、AIは正確に原因変数を特定できたことを示した。このAIは、過去の研究結果(データ)を紡いで利用することで、根底にある未知の知見を導けることを意味しており、高額な臨床試験やそもそも倫理的に行えない試験などを回避し得る画期的発明と言える。なお、本研究で使用されるアルゴリズムは医学研究者の利用を想定し、arXivで入手することができるほか、研究の質的検証も可能とするため、テストされたデータセットは全てオープンアクセスで公表されている。