Nature Biomedical Engineeringに掲載された最近の研究で、米カリフォルニア工科大学などの研究チームは、手術映像から「外科医の術中動作を解析するための画像認識モデル」を構築し、外科医のパフォーマンス向上に向けた活用を提案している。
研究論文によると、本研究ではロボット手術中に撮影された映像を利用し、術中の手技動作の要素を解読するため、Vision Transformerモデルを採用している。Vision Transformerは2020年にGoogleから発表された画像認識モデルで、自然言語処理におけるブレイクスルーとなったTransformerをコンピュータビジョンに応用したもの。手術針の取り扱いや動きを詳細に識別する同モデルは、非常に高い識別精度で外科処置の複雑な動作を捉えていた。
著者らは「手術映像のサンプルから、術中動作の高精度な画像分析モデルを構築できた」とし、外科手技のばらつきを客観的なモニタリングで捉えることで、全体的なパフォーマンス向上に向けた活用が期待されることを明らかにしている。また、術中動作と患者の長期的な転帰の関連を調べることで、予後改善に向けた取り組みも可能となることが期待される。
参照論文:
A vision transformer for decoding surgeon activity from surgical videos
関連記事: