医療現場における「フリーテキスト(自由記述)」は標準化データへの置き換えが容易ではないため、その情報量の多さに対してデータ活用の程度は限られている。ベルギー・アントワープ大学の研究チームは、電子カルテデータに含まれるCOVID-19関連の自由記述から、大規模解析を可能とする症状ベースの標準化データに分類するAIモデルを構築した。
JMIR Medical Informaticsから公表されたチームの研究論文によると、プライマリケアの現場における時間外診療データベースを利用し、症状ベースでの自由記述分類モデルの実現可能性を評価している。サンプルセットは3,957フィールドで構成され、2,313フィールドが研究に使用された。そのうち、85% (n=1,966) をモデルトレーニングに、15% (n=347) をテストに使用したところ、BERTによるディープニューラルネットワークアプローチが最も優れた性能を示していた(重み付けF1スコアとして0.70)。
著者らはこれらの結果を受け、「自由記述データをマイニングし、関連のある標準化された症状別データに変換するAIモデルを開発・使用することは現実的に可能で、今後積極的に進める必要がある取り組みだ」としている。適切な分類を受け、コード化された症状は、他のアルゴリズム開発や検証、病歴聴取と記録保持の質的評価、公衆衛生上の緊急事態におけるリアルタイム症状モニタリング、などへの幅広い活用が期待できる。
関連記事: