大規模言語モデルのChatGPTは、自然言語処理研究においてパラダイムシフトを起こし、テキストの要約に関しても有望な能力を示している。米テキサス大学オースティン校の研究チームは、「ChatGPTの医学的エビデンスに関する要約能力と限界」についての評価に取り組んでいる。
medRxivに掲載された当該研究では、6つの疾患領域(アルツハイマー病・腎臓病・食道がん・神経疾患・皮膚疾患・心不全)に関する最新のレビュー論文を10件ずつ収集し、ChatGPT(GPT-3.5)の要約能力を検証した。要約の品質評価には、品質のいくつかの次元をカバーし得る自動評価指標(ROUGE-L、METEOR、BLEU)と、人間による評価が行われたが、自動評価指標は全体的な要約の品質との間に強い相関はみられなかった。人間による評価の結果からは、大規模言語モデルの特性として、事実と矛盾する要約や、過度に説得力のある要約、不確実性を含む記述など誤った情報が生成される可能性が示唆され、これらの情報は潜在的に有害であることが示された。さらに、文章が長いほど重要な情報の特定が難しくなり、要約においてさらなるエラーが生じることも明らかになっている。
研究チームは、現時点では「人間による評価が、大規模言語モデルによる医学的エビデンス要約の品質評価において不可欠」と結論付け、この分野において、より効率的な自動評価手法の必要性についても言及している。
参照論文:
Evaluating Large Language Models on Medical Evidence Summarization
関連記事: