電子カルテを処理・解釈するAIシステムへの関心が高まっている。ここでは、事前に学習させた言語モデルによる自然言語処理(NLP)がキーテクノロジーとなる。しかし、臨床言語モデルの数は限られており、臨床領域で学習させた最大の言語モデルは1億1000万パラメータ(パラメータは言語モデルの性能指標の1つ)程度と小さく、一般領域における数十億パラメータと比較すると大きく見劣りする現状があった。
数十億以上のパラメータを持つ大規模な臨床言語モデルが、医療AIシステムによる非構造化EHRの活用にどのように役立つかを明らかとするため、米フロリダ大学の研究チームは、900億語以上のテキスト(820億語以上の非識別化臨床テキストを含む)を用いた大規模臨床言語モデル「GatorTron」をゼロから開発した。研究成果は、npj Digital Medicineから26日公開された。研究中では、GatorTronについて臨床概念抽出、医療関係抽出、意味テキスト類似性、自然言語推論(NLI)、医療質問応答(MQA)という5つの臨床NLPタスクで系統的に評価した。結果、GatorTronは、5つの臨床NLPタスク全てで改善を認め、特にNLIとMQAでは9.6%と9.5%の精度向上を確認した。
著者らは「GatorTronは医療AIシステムに適用し、ケア提供を改善することが可能な水準にある」と結論付けた上で、パラメータ数が臨床NLPタスクの処理に大きな利益をもたらす点を強調している。なお、GatorTronモデルは、ウェブサイトで一般公開されている。
関連記事: