医療とAIのニュース 2025
年間アーカイブ 2025
小児血液腫瘍におけるAI搭載小型CBC装置の評価
小児腫瘍患者におけるポイント・オブ・ケアでの迅速な血液検査は、診断や経過観察において非常に重要である。しかし、従来の全血球計算装置(CBC装置)は大型で高コストかつ専門スタッフを必要とし、導入できる施設や迅速性に制約があった。こうした課題を背景に、ブラジルの研究チームは、AIを搭載した携帯型のCBC装置「Hilab Lens」の臨床性能を、標準的に広く使用されている大型CBC装置「Sysmex XE-2100」と比較評価した。
Communications Medicineに発表された論文によると、Hilab Lensの評価にあたり、ブラジル・エラスチーニョ病院でフォローアップを受けている、活動期または寛解期にある2~18歳の血液腫瘍患者555例の全血サンプルが用いられた。Hilab Lensは、光学顕微鏡とスペクトロメトリーを組み合わせ、AI(CNNやトランスフォーマー)が顕微鏡画像を解析して細胞を自動算出した。その結果、Hilab Lensは主要なCBCパラメーターにおいてXE‑2100と同等の測定結果を示し(相関係数r≥0.95)、異常細胞の検出精度も98.8%以上であった。また、静脈採血だけでなく、指先からの微量採血(Capillary blood)でも同様の精度が得られた。さらに、装置価格は従来の10分の1以下であり、リソースの限られた地域への導入も容易である。
研究者らは「Hilab Lensは、小児腫瘍科の診察室やベッドサイドにおいて、迅速かつ正確な血液評価を実現できる」と述べている。今後は、資源の限られた環境など、より幅広い臨床現場での応用や、専門外の医療スタッフによる操作のしやすさ向上に向けた検証が望まれる。
参照文献:
Clinical validation of the Hilab lens for AI supported point of care CBC testing in pediatric...
臨床記録作成AIツール: DAX-Copilotは医師の臨床文書作成の負担を軽減するか
医師の臨床文書作成の負担を軽減するため、米国の研究チームは音声から自動的に診療録を作成するAIツール「DAX Copilot」を評価し、その成果をSurgical Endoscopy誌に報告した。
本研究では、急性腹症、術後管理、発熱や血行動態不安定など外科レジデントが日常的に直面する多様な入院診療シナリオを再現し、複数話者・異なる話し方・距離の変化など現実的な状況下でも音声から自動的に診療録が正しく作成されるか検証された。生成された診療録は、医師3名が改変PDQI-9指標に基づき採点し、正確性と徹底性でいずれも高評価だった。特筆すべきは、AI特有の幻覚(hallucination)やバイアスが一切認められなかった点である。一方で、進行記録(progress note)など入院特有の文書形式に合わせたフォーマット変更がアプリ側で制限されている点、入院カルテ情報と自動連携できず、検査データ等は手入力になる点など、運用上の課題が指摘された。
著者らは、外科レジデントが抱える文書作業の負荷が教育機会の減少や医師の燃え尽き症候群に結びつく現状を踏まえ、アンビエントAIが負担軽減の有力な手段になり得ると評価している。模擬診療では高い性能が示された一方、実臨床での運用や医療機関内のIT連携体制の整備、診療録形式の最適化など今後の検討課題も残るとした。今回の研究は、AI文書作成支援が外科領域の臨床現場にも適応可能であることを示唆しており、今後は実環境での効果検証やワークフローへの統合が期待されるとしている。
参照論文:
DAX Copilot: ambient AI scribe may help reduce surgical resident clinical documentation burden
関連記事:
AIカルテスタートアップ – エラー対応に人間を使う
「半分以上のテキストが重複」- 電子カルテの構造的問題
ChatGPTを契機としたAI規制強化
AIで緑内障における視神経乳頭の形態学的決定因子が明らかになる
視神経乳頭の構造変化が緑内障の進行に深く関わることは知られているが、個々の眼に固有の形態的特徴がどのように生体力学的応答へ影響するかは十分に解明されていなかった。中国とシンガポールの研究チームが、光干渉断層計(OCT)画像から自動的に患者固有の有限要素(FE)モデルを構築したうえで、視神経乳頭内部の篩板の変形を大規模に解析し、この成果をNature PortfolioのEye誌に報告した。
研究チームはまず、154例の健常眼と170例の緑内障眼をOCTスキャンから、視神経乳頭の網膜・脈絡膜・強膜・篩板の4組織をディープラーニング(nnU-Net)を用いて自動抽出した。セグメンテーション精度(Dice係数)は網膜で0.96、脈絡膜で0.89と高精度であった。続いて抽出した形態パラメータを基に分割された物理シミュレーション用3Dモデル(FEモデル)を作成し、15 mmHgの眼圧負荷下で篩板のFEシミュレーションを行った。統計解析では、緑内障眼は健常眼より篩板深度が深く、篩板曲率が大きいなど顕著な形態差が確認され、年齢・性別調整後には緑内障群で篩板ひずみが有意に低下することが示された。また、機械学習(Random ForestとSHAP解析)の結果、ひずみ予測に最も寄与する因子として、従来注目されていた篩板深度だけでなく「前篩板深度(Pre-lamina depth)」がトップに挙げられた。
研究チームは、形態変化が篩板ひずみに及ぼす影響は複雑な非線形関係にあると指摘している。今回の自動化パイプラインは、従来は労力的に不可能だった大規模かつ患者固有の生体力学解析を可能にし、緑内障における形態的バイオマーカーの探索を加速する可能性がある。
参照論文:
An automated optical coherence tomography to finite element analysis pipeline reveals key morphological determinants of optic nerve head biomechanics in...
大規模言語モデルを活用して心臓血管の健康研究におけるデジタル格差を埋める
米国の研究チームは、デジタル化が進む心血管医療の現場で、言語の壁によりスペイン語を母語とするコミュニティがデジタル・ヘルス研究から排除されがちだという問題に着目し、大規模言語モデル(LLM)をと人間の専門家を組み合わせた翻訳ワークフローの有用性を検討し、その提案手法をnpj Cardiovascular Healthにて報告した。
背景には、米国内のヒスパニック/ラテン系住民の1,590万人以上は英語能力が限られるがために、医療情報などが英語のみで提供されることで不利益を被ってきたという事情がある。一方で、ヒスパニック/ラテン系成人のスマホ所有率は91%を超え、デジタルヘルスへの潜在的な親和性は高い。にもかかわらず、既存のデジタルヘルス試験の約半数(51%)が参加条件に英語能力を求めている実態があった。本提案では、まず英語で記述された同意書説明文などの資料を、最新のLLMで自動的にスペイン語へ翻訳。次に、翻訳後の文書をプロの医療翻訳者がレビューするという二段階のハイブリッドワークフローを設計した。一方で、LLMのみでは地域によるスペイン語の方言差や文化的ニュアンスに対応しきれない懸念もあり、二段階目の専門翻訳者レビューでそれを補うとしている。
著者らはこのワークフローについて、「デジタルヘルスの恩恵を均等に享受できるよう、言語的・文化的バリアを低減する現実的かつ費用対効果の高い方法」と述べており、従来から除外されがちだった少数言語話者の参加拡大につながると期待している。今後、実際の臨床試験や医療システムへの導入が進むことが期待される。
参照文献:
Leveraging large language models to bridge the digital divide in cardiovascular health research
関連記事:
米カリフォルニア州 – 人種的に偏ったAIへの対処を求める勧告案
医療画像処理AI開発における「29の潜在的バイアス」
大規模言語モデルが「人種差の誤った医学知識」を拡散する恐れ
歯のレントゲン画像から「歯髄炎」や「歯髄壊死」などを高精度に検出
世界の50%以上がかかる歯髄炎や根尖性歯周炎などの歯内疾患の診断を、人工知能で高精度に行う手法を提案する研究が報告された。中国の研究チームは、従来は歯科医師がレントゲン画像と臨床所見で判断していた歯の神経や歯根の炎症・壊死などの状態分類をディープラーニングで自動化することを目的とし、「MSViT」という改良型ビジョントランスフォーマーモデルを開発し、その成果をScientific Reportsにて発表した。
研究では、まず公開されている疾患ラベルを付けたX線歯科画像のデータセットを用いた。入力画像を分割して階層的に特徴を抽出するMSViTアーキテクチャを採用し、さらにカオス的粒子群最適化(CPSO)と逐次二次計画法(SQP)を組み合わせた独自のハイブリッド手法でモデルを調整した。その結果、「不可逆性歯髄炎」「歯髄壊死」「過敏性象牙質」といった7種類の疾患状態を平均97.72%の精度で識別することに成功した。特筆すべきはモデルの「軽さ」であり、既存の代表的なモデル(VGGNet-19など)と比較してメモリ消費量やパラメータ数を大幅に削減しながらも、それらを上回る性能を示した。これは、高性能な計算機がない一般的なクリニックのPC環境でも動作可能であることを示唆している。
今回の研究は、サンプル数が少ない歯内疾患の画像診断におけるAI活用の可能性を示すものである。著者らは、従来は専門家の経験や主観に依存しやすかった根管疾患の判定を、AIによって客観化し、誰でも同じ基準で診断できる基盤を構築した点を強調した。
参照論文:
AI meets endodontics a deep learning approach to precision diagnosis
関連記事:
歯科領域初のAIキャリブレーションツール「Calibrate」 – Pearl社
矯正歯科の意思決定支援AIツール
歯を失う人を歯科検診なしでスクリーニングできるか?
カルバペネマーゼ産生腸内細菌を予測するウェブアプリ:CarbaDetector
世界的な公衆衛生の脅威とされるカルバペネマーゼ産生腸内細菌(CPE)の迅速かつ正確な検出を目指し、研究チームは新たに機械学習モデルのウェブアプリ「CarbaDetector」を開発した。ディスク拡散法で得られた複数の抗菌薬の阻止円径データを入力することで、CPEの有無を高精度に予測可能とするもので、従来の判定アルゴリズムに比べ、特異度を大幅に改善しながら高感度を維持する。ドイツの研究チームらNature Communicationsで発表した。
研究チームらは、ドイツ国内の大学病院などから採取された385株の臨床腸内細菌分離株を用い、ディスク拡散法による8種類の抗菌薬に対する阻止円径を測定した。その結果と全ゲノムシーケンスによる耐性遺伝子の有無を正解ラベルとして学習用データとした。特徴量としては、各薬剤の阻止円径そのものに加え、薬剤間の径の差も導入し、ランダムフォレストでモデルが構築された。結果、外部データセットでの検証で、感度96.3%、特異度86.1%と高い性能を示した。一方、既存の判定基準であるEUCASTやCA-SFMのアルゴリズムでは、特に特異度が非常に低く、多数の偽陽性を確認検査に回す必要があったが、CarbaDetectorを用いることで、偽陽性による無駄な確認検査の数を従来の約6分の1に削減することができた。
著者らは、既存のディスク拡散法という一般的な感受性試験を活かしつつ、無駄な確認検査を減らせることで、感染制御や抗菌薬適正使用の効率化を行える可能性があるとコメントしている。また、今後はより多様な地域や菌種、耐性機構を含む分離株での検証を進め、最終的にはどのタイプのカルバペネマーゼが存在するかまで予測できるよう拡張する予定とのことだ。
参照論文:
CarbaDetector: a machine learning model for detecting carbapenemase-producing Enterobacterales from disk diffusion tests
関連記事:
ChatGPTは感染症治療の意思決定を支援できるか?
「抗菌薬への耐性獲得パターン」を抽出するAI研究
AIを用いた医療関連感染症のサーベイランス:システマティックレビュー
医師が生成AIを使うと同僚からの評価が下がる?ーAI活用のパラドックス
生成型人工知能(Generative Artificial Intelligence, GenAI)は、診断支援や治療方針の決定など、臨床判断の高度化に寄与する技術として注目されている。しかし、AIの導入は医師間の信頼関係や専門職としての評価にも影響を及ぼす可能性がある。米ジョンズ・ホプキンス大学の研究チームは、医師がGenAIを用いて臨床判断を行った際に、同僚医師からどのように評価されるかを調査し、その成果をnpj Digital Medicineに報告した。
研究では、現役臨床医276名を対象に、①AIを使用しない対照群、②GenAIを主要な意思決定ツールとして使用する群(GenAI-primary)、③GenAIを検証用ツールとして使用する群(GenAI-verify)の3条件を設定し、「糖尿病患者への投薬判断」という一般的な診療シナリオを用いて実験を行った。7点満点での評価の結果、GenAI-primary群の医師は臨床能力の平均評価が3.79と、対照群(5.93)より有意に低かった。一方、GenAI-verify群では4.99と、評価の低下が緩和されたものの、それでもAI不使用時よりは低く評価された。興味深いことに、参加者は「GenAIは診断精度の向上に役立つ(4.30)」と技術自体の有用性は認めている。つまり、「AIは役に立つが、それに頼る医師は頼りない」とみなされるパラドックスが浮き彫りになった。
研究チームは、今後患者が臨床医によるGenAIの活用をどのように認識するか、さらにその認識が患者の信頼、治療遵守、および臨床的アウトカムにどのような影響を及ぼすかを体系的に検討する予定である。
参照論文:
Peer perceptions of clinicians using generative AI in medical decision-making
関連記事:
生成AIと医師の診断精度を比較:システマティックレビュー&メタアナリシス
生成AIによる「胸部X線解釈」
医療者は生成AIを受け入れる準備が整っている
AIによる治験プロセス革新の可能性
近年、臨床試験の計画・運営においては、費用の増大や被験者募集の困難、対象集団の偏りといった構造的な課題が指摘されている。これらは新規治療の評価を遅らせるだけでなく、エビデンスの一般化可能性を損なうおそれがある。こうした課題を踏まえ、米国の研究チームは、臨床試験プロセスへのAIの応用により、治験参加者の適格基準や試験デザイン、運営プロセスの革新を目指す展望を発表した。
npj Digital Medicineに発表された論文において、筆者らは従来の適格基準が実臨床患者を過度に除外し、治験集団と現場患者との乖離を生じさせていると指摘した。その上で、電子カルテ(EHR)や過去の治験データを機械学習で解析し、不必要な除外基準を同定するアプローチを紹介した。実際に肺がんの治験データを用いた検証では、安全性を損なわずに適格患者数を平均で2倍に拡大できる可能性が示された。また、強化学習を用い、中間結果に応じて投与量や治療群の割り付けをリアルタイムで最適化する適応的デザインを紹介している。加えて、実際の患者データから仮想モデル(デジタルツイン)を作成し、シミュレーション上の対照群として活用することで、希少疾患など被験者が限られる場合でも効率的な解析を可能にした。これらにより、試験効率の改善と現実的な母集団を反映した治験設計が可能になる。
本研究の新規性は、AIを単なる分析手段としてではなく、臨床試験の設計および運営に変革をもたらす要素として位置づけた点にある。研究者らは「臨床試験にAIを応用するにあたっては、方法論的・規制的・倫理的課題を踏まえ、被験者数や対象疾患に応じて柔軟に適用可能な運用体制を整備することが今後の重要課題である」と述べている。
参照文献:
AI and innovation in clinical trials
関連記事:
Eligo – 治験迅速化を実現するAIプラットフォーム
Viz RECRUIT – 臨床試験への参加促進ソフトウェア
Medidata – 合成対照群生成で臨床研究を変革
生成AI設計の難病新薬、ヒト臨床試験で成果
特発性肺線維症(Idiopathic Pulmonary Fibrosis, IPF)に対する既存薬の効果は進行抑制にとどまっており、新たな治療標的および治療法の開発が求められている。近年、生成AIを活用した創薬は急速に発展しているものの、AIが発見・設計した薬剤が実際にヒト臨床試験で成果を上げた例はこれまでほとんどなかった。こうした中、中国の研究チームはAIを用いてIPFの新規治療標的を同定し、迅速な小分子阻害薬の創製に成功した。AIの活用により標的発見から第1相臨床試験の完了までを30ヶ月未満という異例の速さで達成している。
Nature Medicineに公表された論文によると、研究チームは、生成AIを用いてTraf2 and Nck interacting kinase(TNIK)をIPFの新たな治療標的として同定し、さらにその阻害薬となる低分子化合物「rentosertib」を設計した。本薬剤の有効性および安全性を検証するために、中国の21施設でランダム化第2a相試験を実施した。IPF患者71例を対象に、30mgを1日1回投与、30mgを1日2回投与、60mgを1日1回投与、およびプラセボ群に無作為に割り付け、12週間投与した。主評価項目である治療関連有害事象の頻度は各群間で大きな差は認められず、安全性は概ね良好であった。副次評価では、60mg群において努力肺活量(Forced Vital Capacity, FVC)が平均98.4mL増加し、プラセボ群の減少(-20.3mL)と対照的に改善傾向を示した。
本研究は、AIが標的探索と薬剤設計の双方を迅速に行い、その設計薬が短期間で第2相臨床試験に移行した重要なマイルストーンである。研究者らは、「より大規模かつ長期の国際共同試験に進み、治療効果の持続性および臨床転帰の改善を検証したい」と述べている。
参照論文:
A generative AI-discovered TNIK inhibitor for idiopathic pulmonary fibrosis: a randomized phase 2a...
人間の生涯にわたる健康経過を予測するAI
人間の生涯における疾病の発症や進行は多岐にわたり、その複雑なパターンを把握することは困難であった。従来のリスク予測モデルの多くは特定の疾患に限定されており、複数の疾患間の相互作用や進行を考慮した予測はほとんど存在しなかった。こうした背景のもと、研究チームは、ChatGPTなどで知られる大規模言語モデル(LLM)の技術を応用し、個人の長期医療データから疾病の進行過程を包括的に学習するAIモデル「Delphi-2M」を開発し、その成果をNatureに発表した。
研究チームは、文章における「単語」のつながりを学習するのと同様に、過去の診断情報、死亡情報、年齢、生活習慣因子を「トークン(言葉)」としてAIに学習させた。英国バイオバンクの約40万例で学習を行った後、デンマーク全国患者登録の193万例を用いて外部検証を実施した。Delphi-2Mは1,000以上の疾患カテゴリーにおいて高い予測精度を示し(内部検証AUC 0.76)、死亡予測においてはAUC 0.97を記録した。本モデルは単なる予測にとどまらず、病気の「連鎖」も明らかにする。例えば、「消化器系の疾患歴がある場合、膵臓がんのリスクが19倍になり、その後の死亡リスクが約1万倍に跳ね上がる」といった具体的なリスク推移を提示可能である。
研究チームは、Delphi-2Mが20年以上にわたる将来の健康経路を予測できるとしており、今後は予防医療や臨床意思決定支援への応用が期待される。一方で、学習データとなった英国バイオバンクは白人や富裕層が多いというバイアスを含んでいるため、異なる地域や民族集団における公平性の検証が必要であるとしている。
参照論文:
Learning the natural history of human disease with generative transformers
関連記事:
電子カルテから発症5年前にアルツハイマー病を予測
変形性関節症を発症3年前に予測する機械学習モデル
2型糖尿病の発症リスクを予測するAI研究
術後合併症の発生を16時間以上早く診断する因果推論AI
心臓手術関連急性腎障害(CSA-AKI)は、致命的な合併症である一方で、効果的な予防が行われていない現状がある。その背景には、急激な機能低下を反映するバイオマーカーや適切な予測モデルがなく、事前の察知が難しいことが挙げられる。これに対し、中国の研究チームは、因果推論が可能な深層学習アーキテクチャ「REACT」を用いることで、CSA-AKIを早期に高精度に予測できるとの研究結果を発表した。
The Lancet Digital Healthに掲載された本論文では、中国およびアメリカの63,349件の心臓手術周術期データを用い、REACTの構築および検証を行った。REACTの構築においては、周術期のデータからCSA-AKIのリスクスコア算出を行う段階と、反実仮想的推論において各変数の時系列データがどの程度CSA-AKIの発生予測に寄与するか(Granger因果効果)を算出する段階を繰り返した。これにより、1,328の変数のうち、6つの因子(年齢/血清Cre値/BUN/尿酸/LDH/CK)が、CSA-AKIの発生に主に寄与すると特定することが出来た。検証においては、重症CSA-AKIの発生をより早期に(発症6~48時間前に)検出するタスクで、平均AUROC:0.92と高い予測精度を示した。また、ガイドラインで推奨される診断法に比べ、平均16.35時間早く診断に至ることが可能であった。
研究チームは、「因果推論の手法を組み合わせることで、最小限のデータ要件で高い汎化能力を持つモデルを構築することが可能となる。より多くのデータや予測モデルを用いてランダム化比較試験を行いたい」と述べている。
参照論文:Causal deep learning for real-time detection of cardiac surgery-associated acute kidney injury: derivation and validation in seven time-series cohorts
関連記事:
術後急性腎障害を予測するAI
化学療法誘発性末梢神経障害を予測する深層学習モデル
癒着性小腸閉塞の手術適応を識別するAI
FDA承認AI医療機器の現状と課題を分析
AIおよび機械学習(ML)を活用した医療機器は、がんや心血管疾患、神経領域などの診断や管理において急速に導入が進んでいる。しかし、承認された多くの機器では、有効性や安全性、リスクに関する報告が十分でなく、臨床現場での判断を困難にしている。こうした背景を踏まえ、米国の研究チームは、米国食品医薬品局(Food and Drug Administration, FDA)により承認された691件のAI/ML医療機器を対象に、承認文書や市販後の有害事象・リコール情報を横断的に分析し、その成果をJAMA Health Forumに発表した。
研究チームによると、1995年から2023年にかけてFDAが承認した691件のAI/ML医療機器のうち、全てのAI/ML機器がクラスII(中等度リスク)であり、承認経路は510(k)が668件(96.7%)と大部分を占め、対象分野としては放射線科が約8割を占めていた。また、試験デザインに関する報告が欠落していたのは323件、試験が実施された施設数に関する報告が欠落していたのは564件、サンプルサイズに関する報告が欠落していたのは368件、人口統計情報に関する報告が欠落していたのは660件であった。ランダム化臨床試験は6件、前向き試験は53件のみであった。査読付き論文で性能が報告されていた機器は272件、患者転帰の報告は3件未満であった。市販後には36機器で合計489件の有害事象が報告され、そのうち誤作動が458件、傷害が30件、死亡が1件含まれていた。
研究チームは、「FDA承認件数が増加している一方で、有効性・安全性・リスクに関する標準化された報告は依然として不足している」と述べている。また、多くのAI/ML医療機器が、厳格なPMAではなく、既存機器との「実質同等性」を前提とする510(k)で承認されている点は、リスク評価の妥当性という観点から議論を呼びそうだ。
参照論文:
Benefit-Risk Reporting for FDA-Cleared Artificial Intelligence −Enabled Medical Devices
関連記事:
救急医療に応用可能なAI製品 – FDAリストのレビュー
FDAのAI医療機器承認リストから見えること
FDA承認済みAI医療機器リスト
機械学習を用いたライム病神経ボレリア症のタンパク質バイオマーカー探索
ライム神経ボレリア症(Lyme neuroborreliosis:LNB)は、ボレリア感染が中枢神経系に波及して発症する疾患であるが、従来の血清学的検査や髄液所見のみでは診断精度に限界がある。こうした課題を背景に、デンマークの研究チームはプロテオミクス解析と機械学習を組み合わせた新たな診断モデルを開発し、その成果をNature Communicationsに報告した。
研究チームによると、LNB患者、ウイルス性髄膜炎患者、対照群から採取した308検体の髄液と175検体の血漿を高分解能質量分析装置で解析し、髄液では約1,800種類、血漿からは約400種類のタンパク質を同定した。分析対象となった654種類のタンパク質からなるプロテオームデータを基に機械学習モデルを構築し、その結果、ロジスティック回帰モデルはウイルス性髄膜炎とLNBの分類において、AUC0.92と最高のパフォーマンスを示した。また、サポートベクターマシンはAUC0.93を記録し、対照群とLNBの分類において最良の結果を示した。さらに、SHAP(Shapley Additive Explanations)分析により、自然免疫および液性免疫応答、神経内分泌シグナル伝達、ならびに細胞損傷に関連する因子が重要な特徴量として特定された。
研究チームは、「こうしたタンパク質シグネチャーを活用することで、従来の方法では困難だったLNBと他疾患の高精度な鑑別が可能になる」と指摘した。今後は血液を用いた非侵襲的診断法への応用を目指しており、感染症領域におけるAIとプロテオミクスの融合による新たな可能性を示す成果となった。
参照論文:
The diagnostic potential of proteomics and machine learning in Lyme neuroborreliosis
関連記事:
ライム病の初期皮膚症状を判別するAIモデル – 米ジョンズホプキンス大学
Diffusionモデルを用いた「新規タンパク質の創製」
血液検査で悪性腫瘍を捉える – 血清タンパク質の推移からOPSCCを識別する機械学習モデル
英国規制当局、早期診断用AI技術7件を臨床試験へ
英国の医薬品・医療製品規制当局(MHRA)は、AIを活用した技術を安全かつ効率的に臨床導入するため、「AI Airlock Programme」の第2フェーズとして、新たに7件のAI医療技術を選定した。AI Airlock Programmeでは、実臨床に近い環境でAIツールを試験的に運用しながら、安全性・有効性・バイアス・アップデート方法などを検証する。
英国政府のプレスリリースによると、今回選定された7件の技術は、大腸がんのミスマッチ修復およびマイクロサテライト不安定性を解析する「PANProfiler Colorectal(MSI/MMR)」、皮膚がん診断支援AI、遺伝性眼疾患自動診断AI、電子カルテ記録自動生成ツール、入院サマリー自動作成ツール、患者向け血液検査結果解説ツール、そして病理診断支援AIである。第2フェーズでは、これらのAIを対象に、パイロット段階で得られた知見を基に有効性および安全性の検討を行い、臨床導入に向けた準備を進める。
MHRAは「AIは医療を変革しえるが、透明性と安全性の両立が不可欠である」と述べている。今回の取り組みで得られたデータを活用し、臨床導入後もAI医療機器の性能維持や安全性を長期的に監視する体制を整備することが、次のステップとして重要である。
参照論文:
AI tools that could detect diseases earlier selected for next phase of MHRA’s ‘AI Airlock’ programme
関連記事:
FDA承認済みAI医療機器リスト
FDAのAI医療機器承認リストから見えること
FDA – 医療機器ソフトウェアへの新しい指針案を公表
AIが咳の音から呼吸器疾患の有無を高精度判定
AIが咳音を解析して呼吸器疾患を判定する時代が、現実味を帯びてきた。インドの研究チームは、迅速スクリーニング向けに開発されたAIプラットフォーム「Swaasa」の有用性を検証し、その成果をScientific Reportsに発表した。
Swaasaは、咳嗽音の音響パターンから呼吸器疾患の「リスクあり/なし」を自動判定するシステムである。さらに、閉塞性・拘束性・混合性といった特定の疾患に特徴的なパターンも識別できるという。研究チームは355例を対象に呼吸器内科医の診断と比較し、Swaasaが87.32%で正しくリスクを予測したことを報告した。疾患特定における感度は97.27%、陽性的中率は88.54%と高い精度を示した。
研究者らは今後、より多様な人口、言語、文化圏を対象にした大規模スクリーニングに取り組み、データセットを拡充することで精度向上を図る方針だ。特に診断リソースが限られる低所得国・中所得国では、安価でアクセスしやすいリモート事前スクリーニングツールへのニーズが高まっている。研究チームは、Swaasaが「大規模人口や隔離された農村地域における疾患スクリーニングに革命をもたらし得る」とコメントしている。
参照論文:
A cross sectional feasibility study to evaluate the usability and efficacy of Swaasa AI platform for rapid respiratory health assessment
関連記事:
AIによる「咳の検出」
咳によるCOVID-19識別は困難?
音声から疾患を捉える
ハーバード大:AIが診断思考を可視化、医学教育での活用に期待
臨床医は日々症例を検討し、鑑別診断や治療方針を決定している。従来のAI診断支援は「正しい診断」を示すことに重点を置いてきたが、診断に至った理由や、他の診断の可能性を除外した理由といった思考過程の説明には十分に焦点を当てていなかった。そのため、研修医や学生が専門医の診断過程を学ぶことは困難であった。この課題を背景に、米国ハーバード大学の研究チームは、実際の症例に基づく詳細な診断推論を生成できるAIシステム「Dr.CaBot」を開発した。
ハーバード大学のニュースリリースによると、Dr.CaBotは大規模言語モデルを基盤に、過去の症例や医学文献を参照しながら検査所見や画像所見を総合的に分析し、診断候補の選択理由や除外理由を明示できる。さらに、生成された推論はスライドや文章レポートとして出力可能であり、医師によるレビューを通じて学習者は実際の臨床判断の背後にある論理をより深く理解できる。こうして研修医や学生は単に結論を学ぶのではなく、専門医の思考プロセスを追体験する形で学習でき、臨床推論力の向上に寄与する。
研究チームは「今後、多施設での症例や異なる専門領域におけるDr.CaBotの有用性検証を進め、推論精度および再現性の評価を行っていく」と述べている。詳細およびアクセス方法は、Dr.CaBotのページで紹介されているため、興味のある読者はぜひ参照してほしい。
参照論文:
An AI System With Detailed Diagnostic Reasoning Makes Its Case
関連記事:
Googleの医療AI「AMIE」が優れた鑑別診断をアシスト
ChatGPT – 救急外来の鑑別診断で医師と同等のパフォーマンス
GPT-4が「複雑な症例の診断」を支援
AIが卵巣腫瘍の診断精度を大幅に向上
卵巣腫瘍は婦人科悪性腫瘍の中でも致死率が高いが、超音波画像のみで良性・悪性を正確に識別することは困難である。診断のばらつきにより過剰な手術が行われる場合がある一方で、悪性腫瘍の見逃しも生じており、臨床上の課題となっている。こうした状況を背景に、スペインの研究チームは卵巣腫瘍の分類を目的として、畳み込みニューラルネットワーク(CNN)とTransformerを早期融合させたハイブリッドAIモデルを開発した。
Frontiersに発表された論文によると、モデルの学習には、1,469枚の2次元Bモード超音波画像で構成されるデータセット「OTU-2D(Ovarian Tumor Ultrasound 2D)」を使用している。CNNで局所的な特徴を抽出し、Transformerで画像全体の文脈情報を学習することで、腫瘍の質感や構造をより精緻に捉えることが可能となった。5分割クロスバリデーションの結果、ハイブリッドモデル単体でAUC 0.9904、正答率92.13%、感度92.38%、特異度98.90%を達成し、ソフトアンサンブルではAUC 0.991、正答率93.3%、感度93.6%、特異度99.0%と高精度を示した。さらに、Grad-CAMによるヒートマップにより腫瘍辺縁など臨床的関心領域を可視化し、エントロピーに基づく不確実性により、自動診断と専門医介入の切り分けが可能となる。
研究チームは今後、このハイブリッドAIモデルを他の婦人科疾患や画像診断全般に応用し、臨床現場での意思決定支援に活用する方針だ。「非侵襲的なリスク評価や不要な手術の削減にとどまらず、幅広い画像診断分野への展開も視野に入れ、さらなる精度検証と実装に取り組みたい」と意欲を示している。
関連記事:
Early-fusion hybrid CNN-transformer models for multiclass ovarian tumor ultrasound classification
関連記事:
卵巣がん早期発見のための個別化アプローチ
卵巣腫瘍の術前MRI画像診断精度を高める新たなAI手法
卵巣がんリスクをAIで予測 – 豪州発の大規模プロジェクト
AIによる感染症モニタリング - カナダ・ヨーク大学の取り組み
公衆衛生分野において、感染症のモニタリングやアウトブレイク対応のためのデータ収集・解析は煩雑であり、特にリソースが限られた地域では迅速な判断が困難である。この課題に対して、カナダのヨーク大学ダダレ・グローバルヘルス研究所は、感染症対策の効率化を目指し、AIを活用した国際ネットワーク「AI4PEP(Artificial Intelligence for Pandemic and Epidemic Preparedness and Response)」を発表、その成果を報告した。
本プロジェクトでは、アフリカ、アジア、ラテンアメリカなど複数の地域拠点において、AIを活用したリアルタイムモニタリングおよび早期警戒システムを導入した。例えば、エチオピアでは「Polio Antenna」と呼ばれるAIアプリの導入により、従来はサンプル採取から検査・報告まで数日を要していたポリオ疑い症例を、より迅速に検知できるようになった。また、南アメリカではAIセンサーで大気汚染を検知し気候×医療データを統合し、呼吸器疾患のリアルタイム監視に活用している。このように、グローバルサウスの20の研究ハブで、地域ごとの文化や生活習慣に合わせたAIモデルを設計し、現地の保健師やコミュニティと協働することでデータの正確性と実行可能性を向上させている。
研究チームは「AIモデルを地域の公衆衛生活動に組み込むことで、従来の手動による監視・解析から効率的かつ標準化された対応が実現した」と述べている。今後は各国政府や保健機関との連携を強化、研究成果の政策実装、そしてグローバルサウスにおけるAIリテラシーを備えた公衆衛生人材育成を推進などが計画されている。
参照論文:
York researchers lead AI initiative to change future of global health
関連記事:
RapiD_AI – 事前学習で「次のパンデミック」に備える
パンデミック下における「遠隔医療利用の社会格差」
将来的なウイルス感染症対策としての「AIトリアージプラットフォーム」
人工知能による網膜年齢差が女性の生殖老化の指標となる
脳画像を用いてAIが推定した年齢と実年齢との差「脳年齢ギャップ(BAG)」は、認知機能低下の早期発見に役立つ新たなバイオマーカーとして注目されている。今回紹介する研究は、その発想を眼に応用し、眼底画像から推定される「網膜年齢差(AIが予測した網膜年齢と実年齢との差)」を、生殖老化の新しい指標として評価したものである。生殖老化は妊孕性の低下に影響するため、その予測は極めて重要である。従来、卵巣予備能の評価には抗ミュラー管ホルモン(AMH)の測定が用いられているが、採血が必要で侵襲的である。中国の研究チームは非侵襲的な眼底画像による代替指標の可能性を探り、npj Digital Medicineで発表した。
研究チームは、1,294人の健康な女性のデータを用い、Swin-Transformerベースのデュアルチャネル転移学習モデルを開発し、網膜年齢差とAMH値との関連を解析した。特に生殖機能の転換期である40~50歳の女性において、網膜年齢差が大きいほどAMH値が低い傾向が示された。具体的には、40~44歳では網膜年齢差が1年増えるごとにAMH値が低いオッズが12%増加(P=0.018)、45~50歳では20%増加(P=0.038)していた。
眼底画像は全身の老化を反映する微小血管変化を捉え、AMHも冠動脈石灰化など血管老化の指標とも関係している。研究者らは、「網膜と卵巣の老化の背景には血管の老化がある」という共通メカニズムに着目し、網膜年齢差が生殖老化の新たな非侵襲的バイオマーカーとなる可能性を示した。
参照論文:
Artificial intelligence-derived retinal age gap as a marker for reproductive aging in women
関連記事:
脳年齢ギャップが認知機能低下に与える影響
「網膜年齢」による疾患予測
「貧困地域で正確な妊娠週数」を算出するAI超音波システム
ICU患者の新規房細動リスクを予測するAI
ICU患者において新規発症する心房細動は、ICU入院期間の長期化や院内死亡リスクの増加につながることがある。ICU患者の心房細動を予測する機械学習モデルに関する先行研究では、外部検証コホートでの性能が低いことや、日常的に使用しない予測因子が含まれているなど、いくつかの課題が指摘されている。オックスフォードの研究チームは、ICU患者における新規発症心房細動を予測するAIモデル「METRIC-AF」を開発し、外部検証を実施した。
The Lancet Digital Healthに掲載された論文によると、外部検証は2008年から2019年にかけて、イギリスの3つのICUおよび米国の4つのICUに入院した39,084人のうち、ICU入室後7日以内に新たに心房細動を発症した2,797人(7.2%)を対象とした。予測因子として、日常診療から得られる10の変数が選択された(年齢、ICU入室日、心拍数、FiO2、入室中の最大平均血圧、血清尿素濃度、ICU入室中の最大血清尿素濃度、心房性期外収縮の有無、ノルアドレナリン注入速度、中心静脈カテーテルの有無)。従来のロジスティック回帰モデルと比較して、METRIC-AFモデルは優れた識別性能を示した(C統計量:0.812 vs. 0.786)。さらにShapley分析の結果、年齢、FiO2、血清尿素濃度が最も重要な3つの予測因子として特定され、これらを用いてグラフィックツールが開発された。
METRIC-AFモデルは、英国および米国の多施設共同研究データを組み込んでおり、単一施設で開発されたモデルよりも一般化可能性が向上する可能性がある。研究者らは、「本モデルとグラフィックツールは、日常診療で使用される変数に基づいているため、臨床医がベッドサイドで患者の新規発症心房細動リスクを簡便に把握するのに役立つだろう」と述べている。
参照論文:
Development and external validation of a clinical prediction model for new-onset atrial fibrillation in intensive care: a multicentre, retrospective...
脳年齢ギャップが老化や神経・精神疾患のバイオマーカーになり得る
ディープラーニングモデルによる推定脳年齢と実年齢の差である脳年齢ギャップ(BAG)は、脳の老化を予測する有望なバイオマーカーとして注目されている。中国の研究グループは、BAGが大きいほど、認知機能低下、認知症、多発性硬化症、精神疾患、生存率の低下のリスクが高くなること、また禁煙、適度な飲酒、定期的な運動といった生活習慣の改善が、特に高リスク者において脳の老化を有意に抑制することを示し、Nature誌のCommunication Medicineで発表した。
研究者らは、UKバイオバンク、Alzheimer’s Disease Neuroimaging Initiative(ADNI)、および Parkinson’s Progression Markers Initiative(PPMI)の3つの大規模コホートに含まれる4万人以上の参加者の頭部MRI画像を解析した。3D Vision Transformerを用いて脳年齢を推定し、実年齢との差である脳年齢ギャップ(BAG)を算出したところ、BAGが1年増加するごとにアルツハイマー病リスクは16.5%、軽度認知障害リスクは4.0%、全死亡リスクは12%上昇することが示された。特に、BAGが最も大きいグループでは、アルツハイマー病リスクが2.8倍、多発性硬化症リスクが6.4倍、死亡リスクが2.4倍に上昇していた。また、禁煙、適度な飲酒、定期的な運動といった健康的な生活習慣が、脳の老化を有意に抑制することも明らかとなった。
本研究では、ディープラーニングによる推定脳年齢と実年齢の差であるBAGが、認知機能低下、精神疾患、死亡のリスクの予測可能性を示した。研究者らは、BAGを測定することで様々な疾患リスクの高い個人を早期発見し、脳の健康を維持するための的を絞った生活習慣介入や公衆衛生戦略の策定に役立つ可能性があるとコメントしている。
参照論文:
Brain age gap as a predictive biomarker that links aging, lifestyle, and neuropsychiatric health
関連記事:
脳年齢ギャップが認知機能低下に与える影響
HistoAge...
超音波画像から乳がんを検出する深層学習融合モデル
単一の深層学習(DL)モデルでは、医療画像から複雑なパターンを捉えることが困難であることが知られている。この課題を克服するために、中国の研究チームは3つの畳み込みニューラルネットワーク(CNN)を組み合わせ、超音波画像を用いて乳がんを分類する融合モデルを開発した。さらに、ブラックボックス問題を解決するために、Grad-CAM++を用いてモデルの解釈を行い、説明可能性の向上を図った。
Frontiersに掲載された論文によると、3つのCNNモデルであるDENSENET121、Xception、VGG16がImageNetを用いて事前学習された。この融合モデルの特徴として、各モデルの最後の畳み込み直前特徴量をグローバル平均プーリングで圧縮後に結合し、全結合層(256→128、ReLU、Dropout)を通してシグモイドで二値分類している。この3つのモデルを融合したモデルは、正解率が97.14%と、各単独モデルの正答率(82-84%)と比較しても高い値を達成した。また、説明可能性の向上のためにGrad-CAM++を用いたヒートマップが生成され、腫瘍の良性・悪性の区別において最も重要な領域が明らかにされた。
本研究により、超音波画像から乳がんを検出する新たな融合DLモデルが開発された。研究者らは、「臨床医がAIモデルを信頼するためには、モデルの透明性と説明可能性の確保が重要であるが、本研究では、Grad-CAM++を用いて予測の根拠となる重要な画像領域を提示することに成功した」と述べている。
参照論文:
Explainable AI-enabled hybrid deep learning architecture for breast cancer detection
関連記事:
AIを用いた二重読影が、乳がん検診の精度を向上させる―Lancet誌―
乳がんMRI検査でAI異常検出モデルが高精度を実現
英NHSで試験運用が進む乳がん検出AI
医療応用に潜む、GPT-5を含む大規模言語モデルのリスク
大規模言語モデル(LLM)は、医療分野において、臨床意思決定支援、医学教育、医学研究、さらには患者向けアプリケーションにもますます利用されている。しかしOpenAIの最新のLLMであるGPT-5でも、「過剰な自信をもって誤情報を提示する」傾向にあり、安全性への懸念がある。スタンフォード大学の研究者らがLLMの医療応用に対する警鐘を鳴らし、Nature Medicineで発表した。
GPT-5の実稼働データによると、「自信に満ちた説得力のある口調で虚偽を提示する現象(hallucination:幻覚)」において、gpt-5-thinkingはo3よりも65~78%少なく、gpt-5-mainはGPT-4oよりも44%少なくなっている。しかしながら、GPT-5の幻覚は依然として存在しており、難易度の高い医療ケースの半数以上では依然として誤答が生じていた。もう一つの重要な論点が「バイオセキュリティ」である。GPT-5は、生物兵器の開発工程の全段階において有用情報を生成できる潜在能力を持つことが報告された。これにより、AIはもはや検索エンジンではなく、合成生物学や核研究と同等のリスク領域に属すると考えられている。さらに、GPT-5はガイドラインなどの明示的なルールよりもタスク達成を優先する傾向があり、ユーザーの指示を優先してしまうばかりに安全ガイドラインを無視して出力を行う可能性がある。これらの脆弱性が医療AIにおいて生じれば、誤った薬剤情報や緊急対応指示が患者に伝わる危険がある。
筆者らは、こうした問題に対し安全性テストの実施、ハードウェアレベルでの閉鎖的環境でのAI運用、さらに医療AIにも資格に基づくアクセス制限の導入が必要だと強調している。GPT-5は確かに前世代よりも高性能だが、依然として「確率的に次の単語を予測する装置」にすぎない。医療や公衆衛生といった、生死に関わる意思決定において、AIが理解しているように見えるという「幻影」は危険であるとコメントしている。
参照論文:
The fragile intelligence of GPT-5 in medicine
関連記事:
臨床ワークフロー全体を通じた「ChatGPTの有用性」
ChatGPTを契機としたAI規制強化
LLMのハルシネーションが新薬開発の手がかりとなり得る
顔写真からそばかすを自動検出
正確なそばかすのセグメンテーションは皮膚科評価や美容アプリケーションに不可欠である。最近では、ディープラーニングベースの技術の人気が高まり、畳み込みニューラルネットワークを使用した皮膚病変の分類が行われているが、そばかすのような微妙な特徴を捉える実用可能なモデルは未だにない。本研究は、顔全体のそばかすの検出とセグメンテーションを行う、計算コストの低い自動化手法としてScientific Reportsに提案された。
韓国の研究チームは、ガウス混合モデル(GMM)とViola-Jonesアルゴリズムという、確率モデルと特徴ベースの画像処理技術を組み合わせることにより、そばかすのセグメンテーションモデルを作成した。すなわち、入力画像の色に基づいてGMMで色のクラスタリングを実行し、Viola-Jonesアルゴリズムで顔領域を検出、次に、検出された顔領域内から肌ラベルのみを抽出し、後処理ステップを適用して肌領域のコントラストを調整した。肌の色調の異なる個人の8枚の画像で検証したところ、全体の正解率(0.9665-0.9863)は高い一方で、再現率(0.3981-0.5592)と適合率(0.2597-0.5862)のトレードオフが顕著に観察された。これらの結果は、モデルは高い精度を維持しているものの、再現率と適合率のバランスを最適化する必要があることを示唆している。
研究チームは、注釈付きのトレーニングデータが大量に必要で計算コストも高いディープラーニングベースのアプローチと比較し、本手法はそばかすのセグメント化における実用的なアルゴリズムとして使用しうると述べている。今後は、大規模な臨床データを用いた検証と皮膚科医との連携が不可欠であり、多様な集団における堅牢性を高めるための更なる研究が必要であるとコメントしている。
参照論文:
A probabilistic detection-based approach to skin and freckle segmentation
関連記事:
病変セグメンテーションのための大規模皮膚病理データセット
DermaSensor – 皮膚がんの自動評価AIツールでFDA承認
「美容注射後の顔貌変化」を予測するAIシミュレーター
関節リウマチ患者に対するリツキシマブ治療後の「Disease Activity Score 28」を予測するAI
生物学的疾患修飾性抗リウマチ薬(Biologic Disease Modifying Anti-Rheumatic Drugs; bDMARDs)は、関節リウマチの活動性コントロールにおいて有効性が認められている一方で、持続的な反応が得られる患者はわずか50%と報告されている。リツキシマブは、抗CD20モノクローナル抗体薬であり、従来型合成抗リウマチ薬(csDMARDs)に反応が得られない患者にしばしば使用される。マケドニアの研究者らは、リツキシマブ治療後6ヶ月および1年時点の疾患活動性を、「Disease Activity Score 28; DAS28」を用いて予測する機械学習モデルを開発した。
Journal of Medical Artificial Intelligenceに発表された論文によると、本研究は2018年から2023年にかけて北マケドニアの大学でリツキシマブ治療を受けた関節リウマチ患者100名を対象に実施された。人口統計学的情報、臨床的特徴、検査値、FCGR3A遺伝子多型などを含む患者データセットが入力変数として用いられ、5種類の機械学習予測モデルがトレーニングされた。その結果、CatBoost回帰モデルが最も優れた性能を示し、一方で線形回帰モデルは最も低い性能であった。リツキシマブへの反応を予測する上で最も重要な因子は、性別、3ヶ月時点のDAS28スコア、抗CCP抗体およびRF抗体の血清陽性であった。また、6ヶ月目以降の検査値を組み込むことで、治療後1年時点のDAS28予測性能が向上し、適合率も改善した。
本研究はサンプルサイズが小さく、単一施設で実施されているため、結果の一般化可能性を高めるには、大規模かつ多様な集団を対象とした検証が必要である。さらに、研究者らは「今後は今回検証した各モデルの最良のパフォーマンスを活用し、アンサンブルモデルの構築も目指す」と述べている。
参照論文:
Machine learning approaches for DAS28 score prediction after rituximab treatment in...
AIは世界の女性の健康を守るツールとなるか
女性の健康を脅かす疾患の一つである子宮頸がんのスクリーニング受診率は高所得国と低所得国で大きな差がある。AI診断ツールは研究及び臨床で大規模に導入され、効果をあげているが、低所得国ではインフラの整備などでAIツールの導入が限られている。研究チームらは、AIを用いた子宮頸がんの細胞学的スクリーニングを東アフリカで実装し、課題と展望をthe BMJに報告した。
研究チームは、ケニア南部の農村部において、最小限のインフラに基づくAI支援型子宮頸がん細胞診スクリーニングシステムを導入した。このプロジェクトでは、子宮頸部スメアサンプルのデジタル病理画像をモバイルネットワークを介してクラウド環境にアップロードし、AI分析と遠隔地の病理専門家による検証が行われた。看護師、検査技師、データマネージャー、病理学者、臨床医などを含む専任の現地チームが結成され、スタッフ全員が検体採取、スライド作製、バイオセーフティ、デジタルデータ入力、AIツールの使用に関する集中的な研修を受けた。結果として、子宮頸部スメアサンプルのデジタル化とAI支援分析は、技術的には実現可能であったが、試薬供給の停滞、試薬の品質不足、停電によって診断精度の制約を受けたことがわかった。
研究チームは、AIが支援する診断方法は、リソースの限られた環境でも子宮頸がんを含む女性の健康状態のスクリーニングへのアクセスを拡大することができるとコメントしている。しかし、資源が限られた環境においてAIを活用した診断ツールを効果的に導入・拡張するには、状況に適したインフラ整備が不可欠であり、AI技術の活用だけでなく、地域の医療システムの整備によっても決まると述べている。改善のためには診断経路と方法を簡素化し、インフラ、消耗品、ユーザーのスキルへの依存を減らす工夫が必要とコメントしている。
参照論文:
AI supported diagnostic innovations for impact in global women’s health
関連記事:
WHO – 医療AIが貧困国にとって危険な可能性を指摘
貧困地域における「子宮頸がん撲滅予測モデル」
南アフリカ農村部でのREASSURED診断 – HIV迅速検査読み取りAIアプリ
【AI×冠動脈CTの現在地】クレアボ・テクノロジーズが拓く新たな循環器診断の形
この記事は、The Medical AI Times Podcast第23回(クレアボ・テクノロジーズ株式会社協賛回)をもとに編集・構成したものです。ポッドキャスト音源とあわせて、テキストでも情報をキャッチアップできるようにお届けします。
【番組概要】■配信日時:2025年10月29日■出演者:クレアボ・テクノロジーズ株式会社代表取締役CEO 山田理一営業部マネージャー 奈良彩乃
華岡青洲記念病院放射線技術部長 理事 山口隆義
みなみ野循環器病院放射線技術部長 兼 診療放射線技師長 望月 純二
The Medical AI Times:岡本将輝 / 島原佑基■配信ページ:YouTube:https://youtu.be/ExkhJQcqWT8
※本記事は医療従事者向けです。医療機器(および一部未承認機器)に関する言及を含みます。企画:The Medical AI Times/協賛:クレアボ・テクノロジーズ株式会社
企画の趣旨と本日のゲスト
島原:The Medical AI Times...
LLMによるオーダーの最適化は可能か?
臨床医は、日々患者の状態をアセスメントし、種々の検査・処方オーダーを入力する。オーダーセットを用いることで、煩雑なオーダ入力を簡略化する工夫が行われているが、ガイドラインの更新等に合わせ、オーダセットを手動でレビューする過程は非常に時間を要するものであった。これに対し、米国の研究チームは、オーダーセットの精度向上・効率化に向けて、LLMマルチエージェントシステムの有用性を示す研究成果を発表した。同研究はJAMA Network Openに掲載されている。
本研究では、5つのLLMベースのエージェント(内容評価/文献探索/知識獲得/医学的検証/提案要約)を組み合わせ、既存のオーダセットに対する最適な改善案を生成した。各提案に関して、正確性や実行可能性、有用性の観点で医師がスコアリングを行ったところ、54%の提案が高い正確性を持つと評された一方、高い有用性を持つとされたのは19%であった。また、提案評価に際するLLMの活用を模索し、医師による評価ポイントを学習させたところ、LLMと医師による評価の一致度を表す指標(Cohen κ係数)が、0.06から0.41まで増加し、中等度の一致度が見られた。このLLMにより評価を代替させると、総提案数を29%削減し、有用な提案の92%を保持することが可能であった。
研究チームらは「本研究で示したようなAIモデルを用いることで、一貫したアプローチでオーダセットの最適化を行うことが可能となった。専門家の役割を、手動での改善点の発見から、的を絞った効率的な提案検証へと移行させる一歩になるだろう」と述べている。今後は、電子カルテへの組み入れ等によって、リアルワールドでの活用検証が期待される。参照論文:Optimizing Order Sets With a Large Language Model–Powered Multiagent System関連記事:1.オーダリングシステムの再設計が検査リソースを節約2.AI診断システムが医療費を削減 – 米マイクロソフト3.医療LLMに潜む社会的バイアス
ChatGPTによって生成された前立腺癌病理レポートが患者の理解を深める
専門用語で書かれた医療レポートは患者にとって理解が難しい場合が多い。カリフォルニア大学アーバイン校の品質改善チームは、生成AIを用いて、患者に分かりやすい病理レポートを作成する取り組みを行った。この取り組みは、患者の理解度を高め、医療者とのコミュニケーションを改善することで、より良い医療提供につなげることを目的としている。研究成果はScientific Reportsに報告された。
研究では、前立腺摘除術および前立腺生検の病理レポート各25件を対象に、ChatGPT-3.5を用いて患者に理解しやすい言葉でのレポートを生成した。生成されたレポートは、9人の泌尿器科医が内容の正確性などを評価し、41人の患者が読みやすさや理解度を評価した。医師の評価では、AIが生成したレポートの病変範囲などに関する記載は約80%が正確であると判断され、AI生成レポートを診療に取り入れたいと回答した。また、患者の評価では、AI生成レポートは構造化されており読みやすい(90%)、診断理解に役立つ(88%)と回答され、約4分の3の患者が補足資料としての提供を希望した。
研究チームは、適切なプロンプトのもとでChatGPTが複雑な医療情報を正確に処理できる可能性を示したと述べている。その一方で、生成AIが医療現場で誤情報を生むリスクも依然として大きな課題であり、不正確な記載や不十分な疾患説明が含まれる場合には、医療者による確認と説明が必要であると指摘している。著者らは、本研究がAIツールの安全かつ効果的な活用を継続的に発展・最適化するための指針となり、今後の医療コミュニケーションの質的向上に寄与する重要な一歩であると結論づけている。
参照論文:
Evaluation of prostate cancer pathology reports generated by ChatGPT to enhance patient comprehension
関連記事:
Siemens Healthineers – 生成AIを画像レポートに適用
Smart Reporting – AIによる報告書作成支援
臨床ワークフロー全体を通じた「ChatGPTの有用性」
中咽頭がんのリンパ節外浸潤および予後予測を行うAI研究
近年、リンパ節外浸潤(Extranodal extension:ENE)は、中咽頭がんにおける最も重要な予後不良因子の一つであることが示唆されている。カナダの研究チームは、治療前の中咽頭がんのCT画像を用いて、AIによるENE分類および予後予測の可能性について評価を行った。
JAMA Otolaryngology - Head & Neck Surgeryに発表された論文によると、本解析はカナダ・モントリオールの腫瘍センターのデータベースを用いて実施された。リンパ節の肉眼的腫瘍体積のセグメンテーション画像は、頭頸部放射線腫瘍専門医によって抽出され、nnU-Netモデルが開発された。また、画像診断に基づくENEの分類には、ラジオミクスと深層学習の双方のアプローチが採用された。解析は18歳以上で、2009年から2020年までに放射線療法または化学放射線療法を受けたヒトパピローマウイルス陽性の中咽頭がん患者397名を対象に実施され、AIによるENE分類はAUC0.81を達成した。ENE陽性患者はENE陰性患者と比較して3年全生存率が有意に低く(83.8% vs 96.8%)、無再発生存率(80.7% vs 93.7%)、遠隔制御率(84.3% vs 97.1%)も同様に低かった。
今回の単一コホート研究において、AIを用いて中咽頭がんの治療開始前のCT画像からENE分類を予測できることが示され、さらにENE陽性と予測された患者は、有意に予後不良であることが示された。研究者らは「本研究の一般化可能性には制限があるため、今後は多施設のデータセットを用いた外部検証が必要である」と述べている。
参照論文:
Artificial Intelligence Model for Imaging-Based Extranodal Extension Detection and Outcome Prediction...






















































