医療とAIのニュース医療におけるAI活用事例DeepSeek-R1が眼科診断でOpenAI o1を上回る

DeepSeek-R1が眼科診断でOpenAI o1を上回る

モントリオール大学らの研究グループが、オープンウェイトの大規模言語モデル「DeepSeek-R1」と、OpenAIの「o1」モデルを眼科診断において比較した結果をJAMA Ophthalmologyに発表した。JAMA Ophthalmologyの臨床症例422例を用いた横断的評価において、DeepSeek-R1がo1を診断精度と次の治療ステップの精度の両面で上回り、さらに運用コストも大幅に削減できることが明らかになった。

研究では、網膜・硝子体、神経眼科、ぶどう膜炎、小児眼科など10の眼科専門分野から収集された422症例を対象とした。各症例には診断を問う自由記述問題と、次の治療ステップを選択する多肢選択問題が含まれていた。Plan-and-Solve Plus(PS+)プロンプト手法を用いて両モデルを評価した結果、診断精度はDeepSeek-R1が70.4%(297/422例)、OpenAI o1が63.0%(266/422例)となり、7.3ポイントの差が認められた(95%信頼区間:1.0%-13.7%、p=0.02)。次の治療ステップ決定においても、DeepSeek-R1が82.7%(349/422例)、OpenAI o1が75.8%(320/422例)の精度を示し、6.9ポイントの有意差が確認された(95%信頼区間:1.4%-12.3%、p=0.01)。専門分野別では、眼形成外科において最も顕著な差が見られ、次の治療ステップ決定でDeepSeek-R1が96.8%、OpenAI o1が77.4%の精度を記録した。コスト分析では、DeepSeek-R1のAPI使用時の費用はOpenAI o1の6.6%に相当し、オフピーク時の割引適用により1.5%まで削減可能であることが示された。両モデル間の一致度は中程度(κ=0.422)であった。

研究者らは、DeepSeek-R1の強化学習による推論能力の向上と、思考の連鎖(Chain-of-Thought)の明確化が診断精度向上に寄与したと分析している。ただし、大規模言語モデルを臨床診断に直接利用することについては、十分な検証と安全性の確保が必要であり、医師の判断を代替するものではないとも述べている。今後は画像解析能力の向上と、眼科専門知識に特化したモデルの開発が期待される。

参照論文:
DeepSeek-R1 vs OpenAI o1 for Ophthalmic Diagnoses and Management Plans

関連記事:
1. Googleの医療AI「AMIE」が優れた鑑別診断をアシスト
2. 医療LLMの診断精度は「人間との対話」を介して大きく低下する
3. 生成AIと医師の診断精度を比較:システマティックレビュー&メタアナリシス

RELATED ARTICLES
spot_img

最新記事

注目の記事