Scientific Reportsに掲載された最近の研究により、米マウントサイナイ医科大学などの研究者らは、米国医師免許試験(USMLE)のソフトスキルにおけるGenerative Pre-trained Transformer-4(GPT-4)とChatGPTの性能を評価した。
USMLEでは、医学知識だけではなく、複雑なシナリオをナビゲートする能力、患者の安全性への配慮、迅速で倫理的かつ法的に妥当な判断力が測定される。本研究では、人間的判断力、共感力、その他のソフトスキルに関するUSMLEの問題において、GPT-4とChatGPTのパフォーマンスを評価した。USMLEの要件を満たすようにデザインされた80問を使用している。問題の出典は、USMLEの公式サイトで公開されているステップ1、ステップ2、CK、ステップ3のサンプル問題となる。結果、両モデルとも正解率は十分に高く、特にGPT-4の性能はChatGPTよりも優れており、ChatGPTの正解率62.5%に対し、GPT-4は90%に達していた。
研究者らは「GPT-4は、プロフェッショナリズム、倫理的判断、共感を必要とする質問に効果的に取り組むことができる」としている。本研究において、ChatGPTが最初の回答を修正する傾向があることは興味深く、ChatGPTはGPT-4に比べ、柔軟性と適応性を重視し、多様な相互作用を好むように設計されていることを示唆する可能性がある。
参照論文:
Comparing ChatGPT and GPT-4 performance in USMLE soft skill assessments
関連記事: