JAMA Pediatricsに掲載された研究で、OpenAI社の大規模言語モデル「GPT-4o」が小児科患者向け指導書の英語・スペイン語翻訳において、専門翻訳者と同等の品質を達成することが示された。ボストン小児病院の研究チームが実際の診療で使用された患者指導書20件を対象に、多次元品質評価(MQM)フレームワークを用いて厳密に評価した結果である。
研究では約300語の小児科患者指導書を、GPT-4oと専門翻訳者がそれぞれスペイン語に翻訳し、3名の独立した専門医療翻訳者が評価した。MQMスコア(0-100点)では、GPT-4o翻訳が平均98.3点(標準偏差2.3)、専門翻訳者による翻訳が平均96.7点(標準偏差3.3)となり、統計的に有意な差は認められなかった(平均差1.6点、90%信頼区間0.7-2.5)。エラー分析では、専門翻訳者による翻訳の方が誤訳エラーが有意に多く(平均4.13件対1.77件、p=0.002)、評価者の52%がGPT-4o翻訳を好むと回答した。研究チームは医療現場に特化したプロンプトを設計し、医療情報交換(HIE)適合版GPTを使用して実際の患者データで検証を行った点が特徴的である。
研究者らは、AI翻訳には依然として人間による監督が不可欠としつつも、スペイン語のような豊富な訓練データを持つ言語では、GPT-4oが翻訳業務の負荷軽減に貢献し、使用頻度の低い言語への人的資源配分を可能にすると指摘している。今後は他言語での評価や患者・介護者を含む評価プロセスの検討が必要とされる。
参照論文:
Evaluating a Large Language Model in Translating Patient Instructions to Spanish Using a Standardized Framework
関連記事:
1. 大規模言語モデルによるトリアージプロセスの支援
2. 医療LLMの診断精度は「人間との対話」を介して大きく低下する
3. 生成AIと医師の診断精度を比較:システマティックレビュー&メタアナリシス