患者個々の有益な情報は、電子カルテ上の診療記録に「専門用語や略語にまとわれて」閉じ込められている。機械的な情報抽出のためには、複数の機械学習モデルをトレーニングする必要があるが、それぞれのモデル学習には専門家による大量のラベリング作業を要し、時間・コストが膨大となる。
米マサチューセッツ工科大学(MIT)のコンピュータサイエンス・人工知能研究所(CSAIL)の研究者らは、このデータ分離に大規模言語モデルを活用し、過負荷な専門用語や略語の展開、投薬計画の抽出といったタスクを、専門家による大掛かりなラベリング作業無しに実現している。MITが1日、明らかにしたところによると、当該システムに対して仮に「CTA(冠動脈造影)の結果」を展開させようとした場合、結果を示すだけでなく、関連する理学所見を「聴診に異常無し」などといったクリーンな出力として返すことができる。これは、さらにパーソナライズされた臨床提案を将来的に実現する可能性があり、研究チームはさらなる研究継続の旨を明らかにしている。
CSAILの主任研究員であるDavid Sontag氏は「大規模言語モデルによるこのアプローチは、臨床上の自然言語処理を大きく変える可能性がある」とし、ゼロショット臨床情報抽出の進歩によって、たとえ何百もの異なるユースケースがあったとしても、問題とならないことを強調する。また、その即時性・簡易性にも言及しており、「特定タスクのために大量のデータにラベルを付ける必要があったとしても、数分の作業で各モデルを構築することができる」としている。