カナダ・トロント大学の研究者らは、「DALL-E」や「Midjourney」などの著名な画像生成プラットフォームの根幹にある深層学習技術「Diffusionモデル」を用いて、自然界に存在しないタンパク質を作成できるAIシステムを開発した。
生成モデルとしては敵対的生成ネットワーク(Generative Adversarial Network: GAN)が広く知られているが、与えられたシグナルから徐々にノイズを取り除くDiffusionモデルは、その登場以降、次世代生成モデルとして大きな注目を集めている。複雑なデータ分布でも学習でき、またその分布を解析的に評価できることが特徴となる。高精度な画像生成は、GANによるSOTAモデルを上回る高い精度を達成している。
Nature Computational Scienceに掲載された研究論文によると、チームが開発したシステムは、画像表現から学習を進め、非常に高い確率で完全に新しいタンパク質を生成することができる。タンパク質はアミノ酸の鎖からできており、これが3次元に折り畳まれることで、タンパク質の機能を決定している。この形は何十億年もの時をかけて進化し、多様性と複雑性を獲得している反面、数自体は限られている。既存タンパク質がどのように折り畳まれるかを理解することで、研究者らは自然界に存在しない折り畳みパターンを設計できるようになったとする。
ProteinSGMと呼ばれるこの新しいシステムは、既存タンパク質の構造を正確にコード化した画像表現の大規模データセットに基づく。これらの画像をdiffusionモデルに入力すると、各画像が全てノイズになるまで徐々にノイズが追加されていく。このモデルは、画像がどのようにノイズになったかを追跡し、そのプロセスを逆に実行することで、ランダムなピクセルを「完全な新規タンパク質」に対応する明確な画像に変換する方法を学ぶことができる。
ProteinSGMは新規治療薬開発に大きな役割を果たす可能性があり、チームと研究開発の動向に関心が集まっている。
参照論文:
Score-based generative modeling for de novo protein design
関連記事: