各種専門医試験にChatGPTを挑戦させるといった「領域特化の回答能力検証」が続く中、米国泌尿器科学会(AUA)の自己評価プログラムに対してChatGPTの回答能力を試す研究が行われ、低調な正答率を記録したとする成果が報告された。
Urology Practiceで発表された同研究では、泌尿器科医の間で国際的に広く活用されているAUAの2022年セルフアセスメント型学習プログラム(SASP)において、ChatGPTが正答率30%に満たない試験結果を示した。その内訳は、画像関連の問題を除き、自由記述形式問題で36/135問(26.7%)、および多肢選択式問題で38/135問(28.2%)という正答率であった。特に自由記述形式問題へのChatGPTの回答は、SASPの模範解答より長い記述であったものの、冗長で内容が循環する傾向がみられた。
研究チームは、「米国医師国家試験(USMLE)のように事実を一対一で想起するような試験ではうまくいくが、複数の重複する事実・状況・結果を同時に考慮する臨床医学の問題においては、ChatGPTの回答能力は不十分」と指摘している。著者でネブラスカ大学医療センターのChristopher M. Deibert医師は「現状、泌尿器科領域におけるChatGPTの利用は、専門的なトレーニングを受けていないユーザーにとって、医学上の誤情報を助長する可能性が高い」と語った。
参照論文:
関連記事: