ChatGPTが各種専門医試験に合格したとする論文が相次いで発表される一方、米ファインスタイン医学研究所の研究チームは、「米国消化器病学会(ACG)の試験でChatGPTが合格点に到達できなかった」とする研究結果を発表している。
American Journal of Gastroenterologyに短報として発表された同研究では、米国消化器病学会の2021年および2022年の自己評価型テスト(画像問題を除く各455問の多肢選択式問題)に対して、GPT-3.5とGPT-4の各バージョンで試験を受けさせた。合格基準70%に対し、GPT-3.5で65.1%、GPT-4で62.4%という正答率で、それぞれ不合格と判定されている。
研究チームでは、不合格になった理由として、ChatGPTが有料購読の医学雑誌にアクセスできていないこと、そして時代遅れであったり非科学的な情報源に基づくことを挙げ、同ツールがトピックや問題に対する本質的理解を持ち合わせていないことを説明する。著者のArvind Trindade医師は「医学教育に関してはこれらAIツールが画期的なものとなるか、研究が不足している。我々の調査結果では、ChatGPTは消化器内科の医学教育に現時点では使うべきではなく、医療現場への導入は道半ばであることを示している」と語った。
参照論文:
ChatGPT Fails the Multiple-Choice American College of Gastroenterology Self-Assessment Test
関連記事: