スタンフォード大学「Trove」- ラベル付きデータを要さない自然言語処理フレームワーク

2020年初頭、米国でも新型コロナウイルスが感染拡大の予兆をみせた時、スタンフォード大学の研究チームは同大学病院の救急部を訪れた。「開発中の自然言語処理(NLP)フレームワークがCOVID-19患者のトリアージに役立つのではないか」と進言するためだった。医師のメモを含め、非構造化テキストとして集積されている医療記録には有用な情報が多くあるが、そこから何らかの示唆や知見を高速に得るための手段が非常に限られていたからだ。

ほとんどのNLPフレームワークとは異なり、Troveと呼ばれる研究チームのオープンソースフレームワークでは、機械学習モデルをトレーニングするためにラベル付きデータを必要としない。これは、非常に高価で時間のかかる「専門家によるラベル付けプロセス」を回避できることを意味する。Troveでは代わりに、いわゆる「weak supervision」と呼ばれるアプローチを採用し、公的に利用可能な生物医学情報データベースと専門家が作成した規則を利用することで、臨床テキスト内のエンティティを自動分類する。

スタンフォード大学の公式ニュースサイトでは、Troveの開発を率いたJason Fries氏のコメントとして「これらのオントロジーとルールが、トレーニングセットのラベル付けにおいて完璧であることは期待できないが、現実的には非常にうまく機能する」と報じる。また、Troveはweak supervisionゆえ、従来のNLPと比較した際に強力な利点を複数持つ。これは「依存する規則を新しい科学情報が入るごとに修正できる」というもので、当然トレーニングデータセットを手動で再ラベリングする必要がないため、システムのアップデートに時間を要さない。さらに、患者プライバシーを侵害することなく、他医療機関と共有可能なラベリング機能も生成できる。

チームによる最新の研究論文は1日、Nature Communicationsから公開された。その中で著者らは「医師など専門家グループに有償で依頼してラベル付きデータを作成することで、そこから時間をかけて構築されたNLPと比較しても、十分に同程度のパフォーマンスが得られている」点を指摘する。Fries氏らが6年間に渡って取り組んだこのNLPフレームワークは今、COVID-19による人類未曾有の危機に大きな役割を果たそうとしている。

関連記事:

  1. NLPとAI – 患者フィードバック解析についてのシステマティックレビュー
  2. Googleアシスタントは薬品名をより正確に理解する
  3. Microsoftの医療AI進出 – Nuanceを197億ドルで買収

前の記事心臓病ケアAIを推進 – GEと米国心臓病学会(ACC)の提携
次の記事AIによる放射線治療計画は臨床に受け入れられるか?
TOKYO analyticaはデータサイエンスと臨床医学に強力なバックグラウンドを有し、健康増進の追求を目的とした技術開発と科学的エビデンス構築を主導するソーシャルベンチャーです。
The Medical AI Timesにおける記事執筆は、循環器内科・心臓血管外科・救命救急科・小児科・泌尿器科などの現役医師およびライフサイエンス研究者らが中心となって行い、下記2名の医師が監修しています。

1. M.Okamoto MD, MPH, MSc, PhD
信州大学医学部卒(MD)、東京大学大学院専門職学位課程修了(MPH)、東京大学大学院医学系研究科博士課程修了(PhD)、ロンドン大学ユニバーシティカレッジ(University College London)科学修士課程最優等修了(MSc with distinction)。UCL visiting researcher、日本学術振興会特別研究員を経て、SBI大学院大学客員准教授、東京大学特任研究員など。専門はメディカルデータサイエンス。

2. T.Sugino MD
防衛医科大学校卒(MD)。大学病院、米メリーランド州対テロ救助部隊を経て、現在は都内市中病院に勤務。専門は泌尿器科学、がん治療、バイオテロ傷病者の診断・治療、緩和ケアおよび訪問診療。泌尿器科専門医、日本体育協会認定スポーツドクター。