医療画像AIの構築という、先進的かつ専門的な技術タスクに取り組む際、良質なデータセットを見つけることに巨大な困難がある。米スタンフォード大学の研究チームは、SNS「X(旧Twitter)」から、注釈付きの病理画像を収集し、質の高いデータセットとする研究を進めている。
Nature Medicineに発表された同研究によるとチームは、まず32種類のハッシュタグを用いて、2006年から2022年までの病理画像に関するツイートを収集した。返信の文言や量、反応、などからフィルタリング処理を行うなどして、結果的には20万枚以上のテキスト注釈付き病理画像のコレクションを形成している。これを著者らは「OpenPath」と呼んでいるが、人間による注釈が施された公開病理画像データセットとしては世界最大級のものになるという。OpenPathのデータセットを用いて訓練されたAIモデル「PLIP(Pathology Language-Image Pre-training)」は、画像やテキストを入力することで、データベース内の類似した注釈付き病理画像を検索できる。
著者であるJames Zou博士は、「Twitterで質の高い医学知識が共有されていることは意外に思われるかもしれないが、このプラットフォームでは病理医が興味深い画像を共有する非常に活発なコミュニティが構築されている。そのため、Twitterから数十万に及ぶ質の高い病理学関連ディスカッションを収集することが可能だった。AIモデルのPLIPを用いて似たような画像を検索し、その症例を参考にすることで、診断のサポートが行える」と語っている。
参照論文:
A visual–language foundation model for pathology image analysis using medical Twitter
関連記事: