医療とAIのニュース医療におけるAI活用事例大規模言語モデルを用いた皮膚疾患の診断精度の比較

大規模言語モデルを用いた皮膚疾患の診断精度の比較

大規模言語モデル(LLM)による皮膚科的診断は、診断サポートとして有益な可能性がある一方で、診断の正確性に関する知見は限られている。ドイツの研究チームは、乾癬、白斑、丹毒、酒さの4つの皮膚科疾患について、7つのLLM(GPT-4o、GPT-4o mini、Gemini 1.5 Pro、Gemini 1.5 Flash、Claude 3.5 Sonnet、Llama 3.2 90B、Llama 3.2 11B)の診断性能を比較し、その成果をDiagnosis発表した。

研究チームは、オンラインの皮膚疾患データベース「Atlas Dermatológico」と「DermIS.net」から、乾癬(254枚)、白斑(108枚)、丹毒(85枚)、酒さ(53枚)の4つの皮膚疾患に関する合計500枚の画像を引用し、データセットを作成した。バイアスを避けるため、7つのLLMに対して標準化されたプロンプトを使用した。最も高い正解率を達成したLLMはGPT-4o(67.8%)であり、最も低い正解率を示したのはGemini 1.5 Flash(37.0%)であった。さらに、疾患別の平均正解率については、乾癬が59.2%と最も高く、丹毒が33.4%と最も低かった。

今回の研究では、LLMは、特に乾癬の紅斑に見られるような境界が明瞭な皮疹を高い精度で識別できることが示された。一方で、本研究は4つの疾患のみを対象としており、研究チームは「LLMの性能をより包括的に評価するためには、多様な皮膚疾患を含めた検証が必要である」と述べている。本文には、全てのLLMで正しく診断された画像や誤診された画像など、実際の画像が掲載されているため、興味のある読者には参照することをお勧めしたい。

参照論文:
Large language models for dermatological image interpretation – a comparative study

関連記事:
1. 皮膚科医全員の診断精度を上回る「メラノーマ識別AI」
2. 新研究 – 皮膚科専門医とAIの診断精度対決
3. Google – スマートフォンカメラから皮膚疾患を識別するAIアプリケーション

Kazuyo NAGASHIMA
Kazuyo NAGASHIMA
長島和世 群馬大学医学部卒(MD)、The University of Manchester(MPH)。WHO/EMROにて公衆衛生対策に従事。2025年度より、アラブ首長国連邦にて、プライマリーケア診療。
RELATED ARTICLES
spot_img

最新記事

注目の記事