同じ組成の化学物質に異なる結晶体が存在することを「多形(Polymorphs)」と呼ぶ。その違いが薬剤の効能に関わるため、創薬分野では多形体データが収集されてきた。製薬会社が独自に収集したデータセットと、公開データセットを組み合わせ、新薬候補として利用できる新たな多形体を予測する機械学習モデル研究が発表されている。
英国のケンブリッジ結晶学データセンター(CCDC: Cambridge Crystallographic Data Centre)のリリースによると、同センターが公開している「ケンブリッジ結晶構造データベース(CSD: Cambridge Structural Database)」と、グラクソ・スミスクライン社(GSK)の独自データセットを組み合わせ、多形体を予測する機械学習モデルが構築された。CSDには過去100年間にわたって収集してきた結晶構造110万件以上、GSK社には医薬品パイプラインにおける種々のフェーズで収集された過去40年間のデータが登録されており、研究成果はCrystEngComm誌に報告されている。
AIモデルはデータの「量」と「特異性」という2つのポイントから恩恵を受ける。CSD側の大量のデータはより信頼性の高い予測につながる。一方でGSK社の独自データセットには、製薬会社として創薬に有利になるよう探索してきた産業界の文化的意思決定が反映されている。CSDとGSKのデータセットを組み合わせることで双方の長所を取り入れられることを本研究では実証しており、データセットの相互補完は業界でのトレンドとして続くことが想定される。
関連記事: