心室中隔欠損(VSD)は、先天性心疾患の中で最も発生頻度が高い疾患であり、自然閉鎖が起こるか否かが治療方針に影響を与える。中国の上海交通大学の研究チームはこのほど、自然言語処理(NLP)技術と機械学習を組み合わせ、高い精度で自然閉鎖の有無を予測するモデルを発表した。
The Lancet Digital Healthに発表された同研究では、29,142人の患児の心エコーレポート・電子カルテを元に、NLP技術で自由記述形式から構造化データに変換し、LASSO法で特徴量の選択を行った。併存疾患(ASD, PFO)の有無や欠損の形態など11個の特徴量を用い、Random Survival Forest(RSF)モデルで1歳/3歳/5歳時点での自然閉鎖の有無を予測させた結果、いずれもAUCが0.95を超える高い予測精度を示した。また重要な特徴量として、欠損の形態(大きさ、位置、シャントサイズ)や初診時の患児の年齢が挙げられ、各患者のリスクを計算することで、自然閉鎖の確率が高い群と低い群に効果的に分類することが可能であった。
研究チームのメンバーは「早期に高い精度で予測を行うことで、治療介入の遅れを防ぐことが出来る。また、本研究はNLP技術と機械学習モデルの組み合わせを、先天性心疾患に適用した先駆的な取り組みであり、他分野にも応用可能だ」と述べている。今後は、複数の医療期間での検証や、介入時期の難しい他疾患への研究の展開が期待される。また、NLP技術で非構造化データから情報を抽出する手法の確立によって、利用可能なデータの幅が広がることが望まれる。