診断支援AIは近年急速に進歩しているものの、多くのシステムは画像やテキストなど単一の情報源に依存しており、実際の診療で行われる複雑な診断推論を十分に再現できないという課題があった。こうした背景を踏まえ、Google DeepMindの研究チームは、患者との対話、臨床情報、画像を統合して診断推論を行うマルチモーダルAIシステムを開発し、その成果をNature Medicineに発表した。
本研究では、Gemini2.0-Flashを基盤とするマルチモーダルAIシステム「Articulate Medical Intelligence Explorer(AMIE)」を構築した。本システムは、患者との対話を通じて追加情報を収集しながら鑑別診断を進める状態認識型フレームワークを採用している。評価は、実臨床を模した105件の模擬患者による遠隔診療ケースを対象に実施された。その結果、専門医18名によるブラインド評価において、マルチモーダルAMIEは32項目の総合評価のうち29項目でプライマリーケア医を上回った。特に、臨床画像や心電図データを病歴と結びつけて病態を読み解く「マルチモーダル推論能力」に関する評価では、9項目中7項目で優位性が示された。さらに、模擬患者による評価では、共感性やコミュニケーション、情報収集の適切性など複数の項目でプライマリーケア医より高い評価を得て、患者中心の対話能力の高さが示された。
本論文の意義は、実臨床に近い対話型診断プロセスにおいて、複数のモダリティ情報を統合した推論能力と患者中心のコミュニケーション能力を同時に評価した点にある。研究者らは「このような対話型マルチモーダルAIは、臨床における意思決定支援の新たな形を示す可能性がある」と述べている。今後はリアルワールド環境での検証や、臨床試験の世界的基準であるCONSORTに準拠したランダム化比較試験による厳密な安全性検証が必要となる。さらに、病理画像やより複雑な3D医療データへの拡張も課題とされており、AIが医療の質とアクセスを底上げする未来に向けて、さらなる進化が期待されている。
参照文献:
Advancing conversational diagnostic AI with multimodal reasoning
関連記事:





















