DeepSeek-R1が眼科診断でOpenAI o1を上回る

2025年9月22日

モントリオール大学らの研究グループが、オープンウェイトの大規模言語モデル「DeepSeek-R1」と、OpenAIの「o1」モデルを眼科診断において比較した結果をJAMA Ophthalmologyに発表した。JAMA Ophthalmologyの臨床症例422例を用いた横断的評価において、DeepSeek-R1がo1を診断精度と次の治療ステップの精度の両面で上回り、さらに運用コストも大幅に削減できることが明らかになった。

研究では、網膜・硝子体、神経眼科、ぶどう膜炎、小児眼科など10の眼科専門分野から収集された422症例を対象とした。各症例には診断を問う自由記述問題と、次の治療ステップを選択する多肢選択問題が含まれていた。Plan-and-Solve Plus（PS+）プロンプト手法を用いて両モデルを評価した結果、診断精度はDeepSeek-R1が70.4%（297/422例）、OpenAI o1が63.0%（266/422例）となり、7.3ポイントの差が認められた（95%信頼区間：1.0%-13.7%、p=0.02）。次の治療ステップ決定においても、DeepSeek-R1が82.7%（349/422例）、OpenAI o1が75.8%（320/422例）の精度を示し、6.9ポイントの有意差が確認された（95%信頼区間：1.4%-12.3%、p=0.01）。専門分野別では、眼形成外科において最も顕著な差が見られ、次の治療ステップ決定でDeepSeek-R1が96.8%、OpenAI o1が77.4%の精度を記録した。コスト分析では、DeepSeek-R1のAPI使用時の費用はOpenAI o1の6.6%に相当し、オフピーク時の割引適用により1.5%まで削減可能であることが示された。両モデル間の一致度は中程度（κ=0.422）であった。

研究者らは、DeepSeek-R1の強化学習による推論能力の向上と、思考の連鎖（Chain-of-Thought）の明確化が診断精度向上に寄与したと分析している。ただし、大規模言語モデルを臨床診断に直接利用することについては、十分な検証と安全性の確保が必要であり、医師の判断を代替するものではないとも述べている。今後は画像解析能力の向上と、眼科専門知識に特化したモデルの開発が期待される。

参照論文：
DeepSeek-R1 vs OpenAI o1 for Ophthalmic Diagnoses and Management Plans

返事を書く

あなたのコメントを入力してください。

ここにあなたの名前を入力してください

間違ったメールアドレスを入力しました。

ここにあなたのEメールアドレスを入力してください

DeepSeek-R1が眼科診断でOpenAI o1を上回る

返事を書く

最新記事

注目の記事

注目の記事

最新の記事