ChatGPTの医学的エビデンス要約能力

大規模言語モデルのChatGPTは、自然言語処理研究においてパラダイムシフトを起こし、テキストの要約に関しても有望な能力を示している。米テキサス大学オースティン校の研究チームは、「ChatGPTの医学的エビデンスに関する要約能力と限界」についての評価に取り組んでいる。

medRxivに掲載された当該研究では、6つの疾患領域(アルツハイマー病・腎臓病・食道がん・神経疾患・皮膚疾患・心不全)に関する最新のレビュー論文を10件ずつ収集し、ChatGPT(GPT-3.5)の要約能力を検証した。要約の品質評価には、品質のいくつかの次元をカバーし得る自動評価指標(ROUGE-L、METEOR、BLEU)と、人間による評価が行われたが、自動評価指標は全体的な要約の品質との間に強い相関はみられなかった。人間による評価の結果からは、大規模言語モデルの特性として、事実と矛盾する要約や、過度に説得力のある要約、不確実性を含む記述など誤った情報が生成される可能性が示唆され、これらの情報は潜在的に有害であることが示された。さらに、文章が長いほど重要な情報の特定が難しくなり、要約においてさらなるエラーが生じることも明らかになっている。

研究チームは、現時点では「人間による評価が、大規模言語モデルによる医学的エビデンス要約の品質評価において不可欠」と結論付け、この分野において、より効率的な自動評価手法の必要性についても言及している。

参照論文:

Evaluating Large Language Models on Medical Evidence Summarization

関連記事:

  1. 臨床医の信頼を得やすいAIツールとは?
  2. ChatGPTが「乳がん関連の健康アドバイス」で有効性を示す
  3. ChatGPTの回答が患者により好まれる可能性
TOKYO analytica
TOKYO analyticahttps://tokyoanalytica.com/
TOKYO analyticaはデータサイエンスと臨床医学に強力なバックグラウンドを有し、健康増進の追求を目的とした技術開発と科学的エビデンス構築を主導するソーシャルベンチャーです。 The Medical AI Timesにおける記事執筆は、循環器内科・心臓血管外科・救命救急科・小児科・泌尿器科などの現役医師およびライフサイエンス研究者らが中心となって行い、下記2名の医師が監修しています。 1. 岡本 将輝 信州大学医学部卒(MD)、東京大学大学院専門職学位課程修了(MPH)、東京大学大学院医学系研究科博士課程修了(PhD)、英University College London(UCL)科学修士課程最優等修了(MSc with distinction)。UCL visiting researcher、日本学術振興会特別研究員、東京大学特任研究員を経て、現在は米ハーバード大学医学部講師、マサチューセッツ総合病院研究員、SBI大学院大学客員教授など。専門はメディカルデータサイエンス。 2. 杉野 智啓 防衛医科大学校卒(MD)。大学病院、米メリーランド州対テロ救助部隊を経て、現在は都内市中病院に勤務。専門は泌尿器科学、がん治療、バイオテロ傷病者の診断・治療、緩和ケアおよび訪問診療。泌尿器科専門医、日本体育協会認定スポーツドクター。
RELATED ARTICLES

最新記事

注目の記事