米ハーバード・メディカル・スクールと英オックスフォード大学の共同研究チームは、教師なし機械学習モデルにより、3,200以上の疾患関連遺伝子にまたがる「3600万以上の遺伝子変異」について、その病原性(疾患を引き起こす特性)を予測することに成功した。研究成果は、権威ある学術誌 Natureに掲載されている。
ヒトの疾患に関連する遺伝子におけるタンパク質変異の病原性を定量化することは、臨床判断に大きな影響を与えるが、一方で、これら変異の98%以上はその結果が分かっていなかった。同研究論文によるとチームは、従来の「既知疾患ラベルによる機械学習モデルの学習」を行うのではなく、「EVE」(evolutionary model of variant effect)と名付けられた全く新しい手法によって特徴を分類しようとした。これは、生物間の膨大な時間の中での配列変異分布をモデル化しようとするもので、これによってタンパク質配列の中から「適合性を維持する特徴」を分離することができるという仮説に基づく。EVEは、まさに進化情報をモデルしたものと言え、研究チームは「研究や臨床に直接資する、変異解釈の貴重な独立したエビデンスを提供する可能性」を示唆している。
ハーバード大学のDebora Marks氏は、公式リリースの中で「我々の結果は、当初の予想をはるかに上回るものだった。進化に伴う配列分布に適合するようにモデルをトレーニングするだけで、与えられた遺伝子変異から生じる疾病リスクについて、想定外に高精度な予測を可能にする情報を抽出している」と述べ、新手法の革新性を強調する。
関連記事: