近年、医療分野における人工知能、特に大規模言語モデル(LLM)の活用が注目されている。このたび米ハーバード大学の研究チームは、LLMを用いて、てんかん治療薬の有効性を評価するシミュレーションによるランダム化比較試験(RCT)を実施し、その成果をEpilepsy Researchに発表した。
本研究では、AIが大量の臨床データから情報を抽出し、治療効果を推論する能力の評価を目的とした。仮想RCTの概要は、てんかん治療薬を模した薬剤の効果を検証するために、240人の患者をプラセボ群と薬剤群に無作為に割り付け、患者の発作頻度を発作日記シミュレーター「CHOCOLATES」で再現したものである。CHOCOLATESは、実際に行われた過去のRCTとの照合から、てんかん患者の発作挙動をよく再現することが検証されており、本実験では多様な発作パターンを示すよう設定された。その後、3つの異なるLLMを用いて、①発作日記を基にした自由記述での記録(カルテ記述)、②記録から発作回数や症状などの情報抽出および要約、③要約を統合したデータ解析の3工程を行い、医師が①の記録を元に解析したデータとの比較を行った。その結果、薬剤の有効性を評価する指標である50%反応率と中央値変化率の両者において、AIと人間の計算値の差が1%程度とほとんど違いが無く、人間の分析と同程度にAIが薬剤の有効性を評価できることが示された。
著者らは「本研究は概念実証(proof-of-concept)として行ったものだが、非構造化臨床データからAIが帰納的推論を行うことが可能だと示した。また自由記述での記録には、実際の臨床現場と同様に不正確な報告や記述などの『ノイズ』を交えたが、本システムでは効果や副作用を適切に判別することができ、応用可能性が高いことが示唆される」と述べている。なお、本研究のソースコードはGithubにて公開されている。
参照論文:
Inductive reasoning with large language models: A simulated randomized controlled trial for epilepsy
関連記事:
1.大規模言語モデルがEBMを推進する
2.TRIPOD+AI – ヘルスケア研究におけるAI利用を反映する新ガイドライン
3.UCLA「MOVER」 – AI研究推進のための大規模手術室データベースを公開