2020年初頭、米国でも新型コロナウイルスが感染拡大の予兆をみせた時、スタンフォード大学の研究チームは同大学病院の救急部を訪れた。「開発中の自然言語処理(NLP)フレームワークがCOVID-19患者のトリアージに役立つのではないか」と進言するためだった。医師のメモを含め、非構造化テキストとして集積されている医療記録には有用な情報が多くあるが、そこから何らかの示唆や知見を高速に得るための手段が非常に限られていたからだ。
ほとんどのNLPフレームワークとは異なり、Troveと呼ばれる研究チームのオープンソースフレームワークでは、機械学習モデルをトレーニングするためにラベル付きデータを必要としない。これは、非常に高価で時間のかかる「専門家によるラベル付けプロセス」を回避できることを意味する。Troveでは代わりに、いわゆる「weak supervision」と呼ばれるアプローチを採用し、公的に利用可能な生物医学情報データベースと専門家が作成した規則を利用することで、臨床テキスト内のエンティティを自動分類する。
スタンフォード大学の公式ニュースサイトでは、Troveの開発を率いたJason Fries氏のコメントとして「これらのオントロジーとルールが、トレーニングセットのラベル付けにおいて完璧であることは期待できないが、現実的には非常にうまく機能する」と報じる。また、Troveはweak supervisionゆえ、従来のNLPと比較した際に強力な利点を複数持つ。これは「依存する規則を新しい科学情報が入るごとに修正できる」というもので、当然トレーニングデータセットを手動で再ラベリングする必要がないため、システムのアップデートに時間を要さない。さらに、患者プライバシーを侵害することなく、他医療機関と共有可能なラベリング機能も生成できる。
チームによる最新の研究論文は1日、Nature Communicationsから公開された。その中で著者らは「医師など専門家グループに有償で依頼してラベル付きデータを作成することで、そこから時間をかけて構築されたNLPと比較しても、十分に同程度のパフォーマンスが得られている」点を指摘する。Fries氏らが6年間に渡って取り組んだこのNLPフレームワークは今、COVID-19による人類未曾有の危機に大きな役割を果たそうとしている。
関連記事: