カナダ・ウェスタン大学の研究チームは、AIモデル構築のためのトレーニングデータとなる「医療面接データセット」を開発し、公開した。臨床現場における臨床医と患者の会話をシミュレートしたもので、特に呼吸器系の症状に焦点が当てられている。
医療面接は臨床的価値の高い情報が多く含まれ、医療AI研究および開発に重要な役割を果たすが、患者プライバシーへの懸念やデータ共有に関する各国の規制によって、容易には公開データセットを構築できない現実がある。Scientific Dataからこのほど公開されたチームの研究論文によると、これらの制約をクリアするため、実際の患者情報を用いない「医療会話のシミュレーションデータセット」を開発したとする。プロジェクトでは、各科研修医と医学生がOSCE形式で行った医療面接を記録することから始めた。録音された会話音声には、余分な情報を取り除くためのクリーニングを行った後、書き起こしの記録文章とセットで保存した。また、データ生成プロセスでは、品質管理のための評価アプローチを繰り返し適用し、結果的にMP3形式の音声ファイル、およびこれに対応するテキストファイル、272セットを構築した。
チームは、症状抽出や疾病分類など、テキストベースの医療AI開発への活用を呼びかけている。また、医学生のOSCE訓練用アバターの構築にも役立つ可能性があるとして、教育目的利用の価値を強調している。
関連記事: