2025 | 医療とAIのニュース・最新記事 - The Medical AI Times

医療とAIのニュース 2025

AIベースの臨床意思決定支援システムの改善策に関する質的調査

Kazuyo NAGASHIMA - 2025年7月18日

臨床意思決定支援システム（CDSS：Clinical Decision Support System）は、最新の医学的知見やデータを解析することで、医療従事者が診断や治療に関する意思決定を正確かつ迅速に行えるようサポートするシステムである。臨床現場の医療従事者にとって利益となる可能性がある一方で、CDSSの普及は遅れている。こうした問題を背景に、ドイツの研究チームは、AIを活用したCDSSの実用化を妨げる障壁や改善策に関する知見を得るため、多様な専門家に対してインタビュー調査を実施し、その結果をJournal of Medical Internet Researchに公表した。研究チームは、患者、医師、保険関係者、法律家、IT関係者、CDSSの開発者など、多岐にわたる17名の専門家に対してウェブを通じた半構造化面接を実施し、227件の専門家の意見を分析対象とした。提案された改善策は、技術、研究、法律など幅広い分野にわたり、システム自体の改善（CDSSの操作性、透明性、カスタマイズ性の向上、システムによってもたらされる利益に関する研究の実施など）、ユーザー側の改善（医師向けのCDSS研修の導入など）、CDSSの使用環境の整備（特に病院におけるデジタル化の促進や法的問題の整備）、自動化バイアス対策（ユーザーがまず自分で判断したうえでAI提言を提示）、ポストマーケット監視（定期的品質検証）などが示された。研究者たちは、「今回の研究は、AIベースのCDSSに関する問題点や改善策について包括的な視点を提供したが、根本的な解決策の特定には至っていない。今後は、分野ごとに問題点に対する定量的研究を実施し、効果的な改善策を示すことが重要である」と述べている。参照論文：Improving AI-Based Clinical Decision Support Systems and Their Integration Into Care From the Perspective of Experts: Interview...

医学教育におけるAIの応用：システマティックレビュー

Kazuyo NAGASHIMA - 2025年7月17日

AIは医学教育の質を向上させる上で重要な役割を果たしているものの、AIが医学教育に与える影響に関するレビューは乏しい。イランの研究チームは、医学教育におけるAIの応用を調査することを目的として、システマティックレビューを実施した。 Journal of Education and Health Promotionに発表された論文によると、研究チームはPubMed、Web of Science、Scopus、Educational Resources and Information Centerを用いて、1986年から2023年の間に発表された医学教育におけるAIの応用に関する論文を検索・スクリーニングし、15件の論文がレビューの対象となった。調査の結果、AIの利用は学習者の知識やスキルの向上に有益であることが示された。具体的には、膀胱鏡検査、前立腺切除術、腹腔鏡下胆嚢摘出のバーチャルリアリティトレーニング、3Dを用いた解剖知識の習得、看護学生向けの抗がん剤投与の実習、放射線診断研修医向けの臨床診断支援などが挙げられた。研究者らは、「今回の研究により、AIの応用が学習者の知識、態度、スキルの向上に有益であることが明らかになった。AIを実際の医学教育システムに組み込むためには、ワークショップやシンポジウムを開催し、教員や学習者のAI利用に対する意識を高める必要がある」と述べている。参照論文： Impact of artificial intelligence on academic performance in medical education: A systematic review 関連記事：カンザス大学...

MIT – LLMの診断精度は非臨床的情報に大きく左右される

Y Global - 2025年7月16日

米MITの研究によると、治療の推奨を行うために導入される大規模言語モデル（LLM）は、カルテ内の誤字や余分な空白、性別情報の間違い、不明確でくだけた言葉の使用など、臨床以外の情報によって診断精度が大幅に低下する可能性があるという。本研究結果はACM Conferencesで発表された。著者らはまず、患者のテキスト情報に対し「性別入れ替え」「文調の強弱付け」「スペース挿入・大文字化などの構文的変化」という三種類の意味を歪めないテキストのずれを定義。「OncQA（腫瘍患者データ）」と「r/AskaDocs（Reddit上の健康相談データ）」の2つの静的データセットと、USMLE準拠の対話型コホートをGPT-4、Llama-3-70B/8B、Palmyra-Medの4モデルに入力し、テキストのずれを含めない場合と含めた場合で診療アドバイスや診断結果がどう変わるかを調べた。その結果、テキストのずれを加えただけで治療推奨度が7〜9％変わり、診断の正答率が約7％低下し、特に女性へのアドバイスが男性に比べて大きく変わる傾向が見られた。「非臨床的な文言や誤りが、LLMの臨床判断にこれほど大きく作用するとは予想外の結果だった。AIシステムの導入前にこうしたテストを含む厳密な堅牢性評価が不可欠だ」と著者らは述べた。今後は、実際の患者による入力データや医師アノテーションによる検証を拡充し、LLMが「推定性別」など暗黙の手がかりに依存するバイアスをさらに解明することが期待される。参照論文： The Medium is the Message: How Non-Clinical Information Shapes Clinical Decisions in LLMs 関連記事：医療LLMの診断精度は「人間との対話」を介して大きく低下する医療LLMに潜む社会的バイアス LLMのハルシネーションが新薬開発の手がかりとなり得る

前立腺がんのMRI画像診断の精度：AI支援あり vs AI支援なし

Kazuyo NAGASHIMA - 2025年7月15日

前立腺がんの疑い症例に対してMRIを実施することで、不必要な生検を回避できる可能性がある。過去の研究では、AIがMRIによる診断精度を向上させる可能性が示されたが、サンプル数やMRI画像の読影者不足によりエビデンスは限られていた。オランダの研究チームは、AIを用いたMRIによる前立腺がんの画像読影が、AI支援なしの場合よりも優れているかどうかを大規模観察研究として実施し、その結果をJAMA Networkに発表した。研究チームによると、17カ国53施設から61名の画像読影者（専門家34名、非専門家27名）が参加し、AI支援の有無にかかわらず、PI-RADS（Prostate Imaging Reporting and Data System）に基づいてMRI画像を評価した。観察対象として、平均年齢65歳、平均PSA値7.0mg/mLの男性360名（前立腺がん患者122名）が選ばれ、合計360枚のMRI画像が評価された。その結果、AI支援なしではAUCが0.882であったのに対し、AI支援ありではAUCが0.916となり、有意なパフォーマンスの改善が示された。また、PI-RADSスコアが3以上の場合、感度はAI支援ありで96.8%、AI支援なしで94.3%であり、特異度はAI支援ありで50.1%、AI支援なしで46.7%であった。さらに、読影者を経験別に検討したところ、非専門家の方が専門家よりもAI支援の恩恵を受けることが示された。本大規模観察研究により、AIを用いることで前立腺がんのMRI画像診断のパフォーマンスが向上することが示され、これは先行研究と一致する結果であった。臨床現場への本システムの導入や業務効率の改善に関する見通しについては、さらなる研究が必要である。参照論文： AI-Assisted vs Unassisted Identification of Prostate Cancer in Magnetic Resonance Images 関連記事： AIが「MRIにおける前立腺がん検出」を支援 RSIP Vision – 前立腺がんMRIのPI-RADSスコアリング支援AI 英NHSで検証が進む「前立腺がんMRI診断AI」

AI診断システムが医療費を削減 – 米マイクロソフト

Y Global - 2025年7月11日

マイクロソフトの研究チームは、医療用大規模言語モデル（LLM）が実際の臨床現場で行う診断プロセスを再現・評価する新たな枠組み「Sequential Diagnosis Benchmark（SDBench）」を開発した。従来の一問一答型テストでは捉えきれない、医師が問診→検査→診断を繰り返す臨床推論の流れを、304件のNEJM臨床病理会議（CPC）症例を使ってインタラクティブに実装した。これにより、最終的な診断精度だけでなく、検査費用という現実的なコストも同時に評価可能な環境も整えた。 arXivで発表された本研究によると、SDBenchは「Gatekeeper」（データ提供役）、「Diagnostic Agent」（診断行動役）、「Judge」（診断評価役）の三者エージェント構成を採用し、患者情報や検査結果を都度取得しながら最適な診断を行うよう設計された。アメリカ・イギリスの医師21名は平均20％の診断精度、検査費用約2,963米ドルを要し、未加工のGPT-4oなどは40～79％の診断精度、2,700～7,850米ドルのコスト範囲だった。ここに仮説立案をするLLM（複数のAIが意見を出し合うブレインストーミングのようなもの）や費用管理を担うLLM（例えば、最小のコストで最大の効果が得られる検査を考えるなど）を組み合わせると、OpenAIのo3モデルで80％（医師比4倍）の診断精度を維持しつつ検査費用は医師比20％、未加工AIモデル比70％削減に成功した。「SDBenchのうなAIエージェントシステムは、AIによる診断支援の新たな地平を切り開く」と著者はコメントしている。今後は、日常診療に多い一般疾患を含むデータセットでの検証、画像診断を加えたマルチモーダル対応、さらには医療教育への応用を進める予定でとのことで、より公平で持続可能な医療資源の配分を支えるAI診断システムの臨床実装が期待されている。参照論文： Sequential Diagnosis with Language Models 関連記事： AI導入が年間医療費を3600億ドル削減 LLM構築と利用は医療者が推進すべきか？生成AIと医師の診断精度を比較：システマティックレビュー&メタアナリシス

メラノーマにおける腫瘍浸潤リンパ球（TILs）評価へのAI活用：客観的指標の確立

R.A. - 2025年7月9日

メラノーマにおいて、腫瘍浸潤リンパ球（TILs）は治療効果や予後と関係する重要なバイオマーカーであることが知られている。しかし、病理医による評価では、観察者間のばらつきが生じやすく、一貫性のない臨床的判断が生じるという課題があった。これに対し、カロリンスカ研究所らの研究チームは、TILs指標群を算出するモデルが、高い再現性をもって予測を行うことが可能であるとの研究成果を発表した。 JAMA Network Openに掲載された本研究では、既存のリンパ球識別モデルを改良したニューラルネットワークに、103枚の組織切片画像を用いて学習させ、111枚のテスト画像に対してTILs指標群の算出を行った。その下で、再現性や精度について、病理医による評価と比較した結果、総じてAIモデルが高い性能を示した。再現性を反映する級内相関係数（ICC）については、AIモデルが全指標で0.9超え、病理医では0.4～0.9であった。また、性別・年齢・病期で調整した多変量解析において、患者予後と関連する因子は、「病期」と「AIモデルが算出した指標群」となっており、予後予測においても有用であることが明らかとなった。研究メンバーは「今後、再現性の高いAIモデルを用いることで、客観的な指標の算出が可能となるだろう。TIL指標群は免疫療法の効果とも関係することが知られており、今後は患者の層別化にも繋がることが期待される」と述べている。参照論文：Pathologist-Read vs AI-Driven Assessment of Tumor-Infiltrating Lymphocytes in Melanoma 関連記事：1.リンパ腫の病理組織学におけるAIの活用 : システマティックレビュー2.卵巣がん病理画像からPARP阻害剤の治療効果を予測するAI3.生成AIと医師の診断精度を比較：システマティックレビュー&メタアナリシス

妊婦の夜間心拍から妊娠糖尿病を予測するAI研究

Y Global - 2025年7月4日

近年、妊娠中に発症する糖代謝異常「妊娠糖尿病（GDM）」を早期に予測し、生活習慣介入を前倒しで行うことで母子の合併症を減らす取り組みが注目されている。しかし、現在の標準スクリーニングである24～28週の経口ブドウ糖負荷試験（OGTT）は侵襲的かつ感度が限定的で、より早期のリスク把握が求められている。そこでオランダの研究チームは、睡眠中の心拍変動を初期妊娠（6～15週）に計測し、従来のリスク因子と組み合わせた機械学習モデルでGDM発症リスクを予測する手法を検証し、その結果をnpj Woment's Healthで公開した。米国の大規模出生コホート「nuMoM2b」から、OGTTと標準的家庭用睡眠試験を受けた2,748名（GDM121名）を解析対象とし、年齢・BMI・人種・家族歴などNIH推奨の7項目リスク因子と、睡眠中の心拍変動情報を示す52の統計量を入力特徴量とした。ロジスティック回帰モデルは、リスク因子のみでAUC0.69、睡眠時心拍変動情報のみでAUC0.65、両者を結合するとAUC0.73を達成し、NIHガイドライン（AUC0.63）を上回った。特に、平均心拍数や副交感神経の活動指標である「RMSSD」、自律神経の短期/長期のバランスを表す「SD1/SD2」などの心拍変動情報がGDM予測に寄与し、機械学習による特徴重み付けで早期リスク評価の有用性を示した。「睡眠中の心拍変動情報は非侵襲かつ家庭環境で連続計測可能な新たな生理マーカーになり得る。今後は、より多様な人種・社会経済集団での検証や、連続モニタリングによる睡眠時心拍変動の時系列解析を進め、手軽なウェアラブル機器での実用化や、個別化された妊娠ケアへの応用を目指す」と著者らは強調した。参照論文： Overnight maternal heart rate variability for early prediction of gestational diabetes mellitus: a retrospective cohort study 関連記事：人工妊娠中絶を予測するAI – エチオピアバーチャルケアアプリが示す「ハイリスク妊娠への有効性」「貧困地域で正確な妊娠週数」を算出するAI超音波システム

脳年齢ギャップが認知機能低下に与える影響

Y Global - 2025年7月3日

近年、脳の老化度合いと認知機能低下リスク因子（高血圧や糖尿病など）との関係に着目した研究が進んでいる中で、脳画像に機械学習を適用して「脳の生物学的年齢」を予測し、実際の年齢との差（脳年齢ギャップ：BAG）を算出する技術が登場している。シンガポール国立大学のチームはこのほど、BAGが認知障害リスク因子と記憶・思考能力の結びつきにどのように影響するかを調査し、その結果をNeurology誌で公開した。特に、脳血管障害のマーカーが多い人ほど、その影響が顕著になるかを明らかにし、認知機能低下の早期発見に役立つ新たなバイオマーカーとしての可能性を示した。本研究には、平均66歳の非認知症者1,437人を対象に、アンケート・面接・検査で得たデータと脳MRI画像を用いた。認知障害リスク因子（年齢・BMI・高血圧・糖尿病・うつ症状など）を点数化し、「実行機能」「注意」「言語」「記憶」「図形構成」「視覚運動能力」のテストで認知機能を評価した。次に、脳MRIの皮質厚・脳室容積など62項目を用いて機械学習モデルで脳年齢を予測し、BAGを計測。その結果、認知障害リスク因子が認知機能に与える影響の全体で20％、実行機能では34％、言語能力では27％がBAGに影響されることがわかった。特に脳血管障害を多く抱える群で顕著にBAGが介在していた。「BAGは認知低下リスク評価の有望な指標になり得る」と著者は述べている。特に脳血管性リスクを抱える高齢者では、リスク因子が直接的に認知機能へ及ぼす影響に加えて、脳の“早期老化”が認知低下を加速させるメカニズムが浮かび上がった。今後は、多民族や運動・食事習慣、遺伝子マーカーを含む多角的データで検証を進め、認知症予防や個別化医療への応用が期待される。参照論文： Role of Brain Age Gap as a Mediator in the Relationship Between Cognitive Impairment Risk Factors and Cognition 関連記事：顔写真から生物学的年齢を推定、がん患者の予後予測に寄与するAI「FaceAge」 HistoAge – 脳組織の年齢を識別するAI 心臓年齢を予測するAIツール研究

Mpoxの皮膚病変数をカウントするAI

Kazuyo NAGASHIMA - 2025年7月2日

Mpox（旧称：サル痘）は、エムポックスウイルスによって引き起こされる急性発疹性疾患である。WHOのガイドラインでは、Mpoxの重症度を皮膚病変の数によって評価することが推奨されているが、目視による病変のカウントは労力を要し、正確性に欠けるという課題がある。この問題を解決するために、アメリカ、コンゴ、ラトビアの共同研究チームは、深層学習を用いたセグメンテーションによるAIモデルを開発した。 Journal of Medical Imagingに掲載された論文によると、18名のMpox患者から66枚の臨床写真を取得し、UNet++に加えて3つのインスタンスセグメンテーション（Mask R-CNN、YOLOv8-seg8、E2EC）を訓練し、そのパフォーマンスを評価した。Mask R-CNNのF1スコアは0.75、YOLOv8は0.75、E2ECは0.70、UNet++は0.81と高精度な結果となった。また、UNet++、Mask R-CNN、YOLOv8を組み合わせたアンサンブルモデルのF1スコアは0.78であり精度の改善を示さなかった。定性的評価では、小さい病変を見逃しがちであること、爪やしわを病変と見間違えるなどのエラーが確認された。本研究では、インスタンスセグメンテーションとセマンティックセグメンテーションが同様のパフォーマンスを示した。筆者は、「今回の研究では一人の評価者によってMpoxの病変評価が行われたため、評価者による結果の相違が考慮されていない。また被験者全員の肌タイプがダークスキン（タイプⅥ）であり、他の肌タイプへの一般化も必要だ」と述べている。参照論文： Mpox lesion counting with semantic and instance segmentation methods 関連記事： PoxApp – mpox（サル痘）の無償AI診断ウェブアプリサル痘の皮膚病変を識別するモバイルAIアプリ Moskeet – 感染症と闘うAIスマート蚊取り

外耳道分泌物からパーキンソン病を予測するAI

Y Global - 2025年6月30日

パーキンソン病（PD）は高齢者に多く見られる進行性の神経変性疾患で、現在の診断基準（MDS-UPDRSや各種画像診断）は「主観的評価」や「高コスト・長時間」を伴い、早期発見・介入には不向きとされる。中国の研究チームは、より簡便かつ低コストにPDのバイオマーカーを検出する手法として、外耳道分泌物（ECS）中の揮発性有機化合物（VOC）に着目し、VOCのプロファイルを解析することで、非侵襲的・迅速にPDをスクリーニングできる可能性を示し、その成果をAnalytical Chemistyにて発表した。まずECS試料を調べ、PD患者と健常者で有意差を示した14種のVOCのうち、エチルベンゼン、4-エチルトルエン、ペンタナール、2-ペンタデシル-1,3-ジオキソランの4成分を最終的なバイオマーカー候補とした。これらを入力特徴量とした機械学習モデル（サポートベクターマシン）が約84.3%の精度でPDの有無を正確に識別した。その後、4成分のクロマトグラフィーから得られる時系列情報を計測、それを2Dマトリクス化（2次元データ化）し、畳み込みニューラルネットワークで学習させる「AIOシステム」を構築。クロマトグラフ情報を活かすことで、検査時間やコストを抑えつつ、94.4%の正答率かつAUC0.98の識別性能を実現した。本研究は、環境変動の少ない外耳道分泌物を用いることで、皮膚表面にくらべてサンプルの安定性を確保できる点を示した。著者は「今後は、ECS採取プロトコルの標準化や被験者層の拡充、疾患ステージ別の多クラス分類モデルの開発を進め、臨床導入を目指している」と述べた。また、小型化・簡易化したAIOデバイス化により、外来や在宅での早期スクリーニングツールとして、PD患者の生活の質向上に貢献することが期待されている。参照論文： An Artificial Intelligence Olfactory-Based Diagnostic Model for Parkinson’s Disease Using Volatile Organic Compounds from Ear Canal Secretions 関連記事：網膜眼底画像によるパーキンソン病スクリーニングウェブカメラとAIによる「パーキンソン病の家庭評価」眼球スキャンでパーキンソン病の兆候を7年前に検出

希少遺伝性疾患の表現型診断における最新AI研究

Y Global - 2025年6月26日

希少疾患は患者数が極めて少ないため、臨床経験やデータが不足し、約70％の患者が未診断のまま診断の迷宮に陥っている。従来の機械学習や深層学習は多数のラベル付き症例を前提とするため、希少疾患には適用が困難だった。そこで米ハーバード大学の研究チームは、知識グラフと偽患者データを活用した少数例学習モデル「SHEPHERD」を開発し、npj Digital Medicineでリリースされた。患者の臨床所見と候補遺伝子を入力すると、遺伝子探索、類似患者検索、新規疾患特徴付けを一挙に実行し、未知の疾患にも対応可能な診断支援を目指している。 SHEPHERDはまず疾患・遺伝子・表現型の関係を表現した知識グラフ（知識の地図）を自己教師ありで学習し、その後20万超のシミュレーション患者で微調整。外部評価では、複数の原因不明疾患データベースの計2,042人の実患者に適用し、専門家が絞った真の原因遺伝子候補リストの上位5位を特定する確率が77.8％に達した。さらに、同じ遺伝子が原因の患者同士を自動的に似たグループにまとめたり、新しい病気でも「どの既知の病気に近いか」がわかる形で説明したりできるようになっている。「SHEPHERDは希少疾患診断における深層学習の壁を突破し、少ない症例でも高精度な支援が可能であることを示した」と著者は述べ、今後は変異レベル情報や動物モデルデータの統合、電子カルテとの連携、臨床ワークフローへの実装評価を進める予定とのこと。AI支援による早期診断が、希少疾患患者の医療負担軽減と治療開始の迅速化に貢献すると期待される。参照論文： Few shot learning for phenotype-driven diagnosis of patients with rare genetic diseases 関連記事：希少疾患診断にAIを活用 GestaltMatcher – 顔分析で希少遺伝子疾患を判別するAIシステム機械学習により4種の自閉症サブタイプを特定

眼底画像を用いて心房細動患者における認知障害を特定する

Kazuyo NAGASHIMA - 2025年6月24日

心房細動（AF）は、認知症の独立したリスク因子である。しかし、認知機能の評価には時間がかかるため、AF患者のスクリーニングには組み込まれていない。AF患者における軽度認知障害への介入を遅らせないためには、簡便なスクリーニングツールが必要である。中国の研究チームは、AF患者における認知障害のスクリーニングを目的として、眼底写真を用いた深層学習モデルを開発し、Heart Rhythm O2に発表した。研究チームによると、2021年から2023年までに眼底評価と認知機能評価（Mini-Mental State Examination）を受けることに同意したAF患者899名を対象とした。4種類の畳み込みニューラルネットワーク（CNN）を組み合わせたモデルが開発され、眼底写真のみに基づくビジョンアンサンブルモデルと、眼底写真に加えて4つの変数（教育レベル、年齢、心不全の有無、BMI）を考慮したマルチモーダルモデルで認知障害の検出能力が検証された。その結果、AUCはビジョンアンサンブルモデルで0.855、マルチモーダルモデルで0.861と高精度な結果となり、かつ両者に有意差は認められなかった。ビジョンアンサンブルモデルは、特に網膜血管と視神経乳頭周辺領域に注目して予測していることが明らかになっている。実際の臨床現場では、認知障害が深刻化してから受診するケースが多い。著者らは、「現在、眼底写真の撮影がスマートフォンなどによってますます簡便になっており、本深層学習モデルを用いることで、AF患者における認知障害を迅速かつ効率的にスクリーニングできる可能性がある」と述べている。参照論文： Screening cognitive impairment in patients with atrial fibrillation: A deep learning model based on retinal fundus photographs 関連記事： Cognetivity – AIによる認知障害の初期兆候検出 RetiSpec社 –...

医療LLMの診断精度は「人間との対話」を介して大きく低下する

Y Global - 2025年6月23日

近年、ChatGPTなどの大規模言語モデル（LLM）は医師向け試験で高得点を出し、初期診断や健康相談への応用が期待されている。しかし、こうした「医療知識」ベンチマークが、一般の人が実際に使う際の正確性を保証するわけではない。英オックスフォード大学の研究者はこのほど、医療知識に優れる3種のLLM（GPT-4o、Llama 3、Command R+）が、一般人にどれほど効果的に医療アドバイスを提供できるかを検証した。英国在住の1,298名の一般人を対象に、日常的に遭遇し得る10パターンの症例シナリオを提示。「緊急度の判断」と「想定される疾患の列挙」を課題とし、参加者をLLM3種のいずれか、または自由な方法で情報収集する群（対照群）に無作為割り付けた。LLM単体では疾患同定率94.9％、緊急度判定率56.3％と高精度だったが、参加者がLLMを使った際の正解率は疾患同定率34.5％以下、緊急度判定率44.2％以下にとどまり、対照群と差がない結果となった。対話ログを分析すると、LLMは対話中に65.7％の場面で正答候補を示していたものの、参加者が必要情報を聞き出し切れない、または提示された情報を正しく利用できず、最終回答に至らない例が多かった。一方、医師試験問題を用いたベンチマークやLLM同士の対話シミュレーションでは高精度かつ参加者実験との相関が低く、実運用の失敗を予測できなかった。研究者は「専門家レベルの知識保持だけでは、一般ユーザーとの対話を介した医療相談には不十分」と警鐘を鳴らした。今後は、一般向け医療チャットボットを導入する前に、実際の人間を用いた対話テストやユーザー行動分析を体系的に行うことが不可欠と考えられる。また、情報の抜け漏れを補うインタラクション設計や、正しい提案を確実にユーザーに伝える説明機能の強化など、対話性能を向上させる技術開発が急務とされている。参照論文： Clinical knowledge in LLMs does not translate to human interactions 関連記事：医療LLMに潜む社会的バイアス大規模言語モデルが「人種差の誤った医学知識」を拡散する恐れ視覚言語モデルは否定語を理解できない

心臓CT画像から死亡率を予測 – 多施設共同研究

Y Global - 2025年6月20日

米ロサンゼルスの研究チームが、従来心筋灌流検査時の減弱補正やカルシウム定性評価のみに用いられてきた低線量CT減弱補正スキャン（CTAC）を活用し、AI技術によって胸部における体組成を定量的に評価し、全死因死亡リスクの層別化に役立てる新たなアプローチを提案し、研究成果がThe Lancet Digital Healthで公開された。CTACは米国で年間600万件以上実施されるが、その診療価値は限定的であったため、既存検査の情報を拡張し、追加の被ばくなしに臨床意思決定を強化することが求められている。国際共同レジストリREFINE SPECTに登録された11,305例のうち、胸椎T5–T11を含むCTACスキャンと臨床データが揃った9,918例を対象に、AIベースの自動セグメンテーション（TotalSegmentator等）と画像処理技術で骨、骨格筋、皮下脂肪、筋間脂肪、内臓脂肪、心外膜脂肪を抽出。体積指数とCT値（減衰値）の標準偏差を算出し、中央値2.48年（IQR1.46–3.65）の追跡期間中610例の死亡（6%）を観察した。多変量Coxモデルで、内臓脂肪CT値高値（HR2.39、p<0.0001）、心外膜脂肪（1.55、 p<0.0001）、筋間脂肪（1.30、p=0.012）は死亡リスク上昇と関連していることが判明した。一方、骨CT値高値（0.77、p=0.016）や骨格筋体積指数高値（0.56、p<0.0001）はリスク低減と関連し、既存の臨床リスク因子や灌流・カルシウム指標を上回る予後予測能を示した。著者は「CTACスキャンに含まれる豊富な体組成情報を、追加撮影なくAIで自動抽出できれば、検査価値を飛躍的に向上させ得る」と強調する。今後は、多施設前向きコホートや他の胸部CTへの適用検証、最適カットオフの策定、QALY評価を含む長期アウトカム解析、臨床ワークフローへの組み込みによる実用化研究を推進し、心血管疾患診療における新たなリスク層別化手法として確立する必要があると述べている。参照論文： AI-based volumetric six-tissue body composition quantification from CT cardiac attenuation scans for mortality prediction: a multicentre study 関連記事： AIによる心臓弁膜症・逆流症の評価とリスク層別化：DELINEATE-Regurgitation研究 AIが「心臓突然死の予知・予防」に役立つ可能性「心臓の丸み」から心疾患リスクを予測

LLMのハルシネーションが新薬開発の手がかりとなり得る

Y Global - 2025年6月19日

大規模言語モデル（LLM）のハルシネーション（事実とは異なる出力）が仮説形成に役立つ可能性が注目されている。LLMのハルシネーションは従来有害なものとされていたが、これを創発的仮説形成の手法として活用することで、従来人間では思いつかなかった有益な仮説を生み出す場合がある。このほど、ケンブリッジ大学の研究チームは、GPT-4を活用し、膨大な文献から得られる知見をもとに、乳がん治療において、FDA承認済みの非抗がん薬を対象としたシナジーの高い薬剤ペアを抽出する新手法を提案した。 Journal of the Royal Society Interfaceに掲載された本研究では、まずGPT-4に対してFDA承認済みの非抗がん薬からなる12組のペアを提案させ、乳がん細胞株（MCF7）および非がん細胞株（MCF10A）に対する細胞生存率アッセイを実施した。２剤併用時の効果を表すHSAシナジースコアを算出したところ、初回スクリーニングで3組の薬剤ペアが臨床で用いられる陽性対照を上回る相乗効果を示し、特にシンバスタチン＋ジスルフィラムやイタコナゾール＋ジスルフィラムがMCF7に対して顕著な選択的毒性を発揮しました。続いて、これらの実験結果をGPT-4にフィードバックして再度4組のペアを生成させたところ、うち3組が再び高いシナジースコアを記録した。こうして、AIによる仮説形成と閉ループ実験の組み合わせが、従来人力のみでは難しかった薬理機序の異なる薬剤の組み合わせ探索を可能とした。ケンブリッジ大学のロス・キング教授は「LLMのハルシネーションを創発的仮説として活用することで、AIは人間の先入観を超えたまったく新しい研究パスを提示できる」と述べた。また、キングズ・カレッジ・ロンドンのヘクター・ゼニル博士も「AI科学者と人間研究者が反復的に協働することで、新しい発見までの時間を飛躍的に短縮できる」と強調した。今後は、厳選された文献や分子データベースを組み込んだプロンプト最適化手法の開発や、他のLLMとのアンサンブルアプローチの実用化が検討されている。参照論文： Scientific hypothesis generation by large language models: laboratory validation in breast cancer treatment 関連記事：医療LLMに潜む社会的バイアス Googleの医療AI「AMIE」が優れた鑑別診断をアシスト視覚言語モデルは否定語を理解できない

2型糖尿病における冠動脈疾患の有無を予測するAI

Kazuyo NAGASHIMA - 2025年6月18日

2型糖尿病（T2DM）は、冠動脈疾患（CHD）の主要なリスク因子であることが知られており、その同定は重要である。CHDの診断には冠動脈造影（CAG）が広く用いられるが、カテーテルを血管内に挿入し、造影剤を用いて冠動脈を映し出すため、侵襲的な手法である。中国重慶医科大学の研究チームは、T2DM患者におけるCHDを予測する機械学習モデルを開発し、その成果をFrontiersに発表した。研究チームによると、中国重慶医科大学の医療データプラットフォームからCAGを受けたT2DM患者のデータをレトロスペクティブに収集し、2,517名を解析の対象とした（T2DM＋CHD群1,943名、T2DM単独群574名）。5つの機械学習モデルが比較され、その結果、RFE（再帰的特徴量削減）＋LightGBMで特徴量選択を行ったXGBoostが最も優れたパフォーマンスを示した（AUC：0.814、正解率：0.799、適合率：0.841、再現率：0.920、F1スコア：0.879）。SHapley Additive exPlanations分析では、年齢、高血圧、喫煙の有無、HbA1c、血糖値、総タンパク、クレアチニン、AST、HDL-コレステロール、リポタンパク（a）、アポリポプロテインA-1、フィブリノーゲン、アルブミンの13の特徴量が重要因子として特定された。今回の研究により、本機械学習モデルを用いることで、容易にアクセスできる臨床データからT2DM患者におけるCHDを特定できる可能性が示唆されている。したがって、本モデルは、特にプライマリケアなどでCHDを容易に同定できない場面において役立つ可能性がある。筆者らは、「時間経過を考慮した予測精度を評価するためには、縦断的な前向き研究によるフォローアップが必要である」と述べている。参照論文：Machine learning-based coronary heart disease diagnosis model for type 2 diabetes patients 関連記事：1. 香港における糖尿病患者の全死因死亡予測モデル開発2. 冠動脈CTAへのAI利用 – プラークの定量と心臓発作リスク予測3. Salix – 冠動脈疾患の早期診断AIツール

AIによる心電図アラートシステムの導入は経済合理性がある

Y Global - 2025年6月17日

本研究は、入院患者の日常的な心電図（ECG）検査にAI解析を組み込み、死亡リスクの高い患者のアラートを医師に即時通知する「AI-ECGアラート」が、既存の迅速対応システムと連携して90日間の全死因死亡率低減したという先行研究に加え、その医療費用対効果を評価したものだ。AIにより死亡率が低下すると同時に、集中的治療や検査の増加により医療コストも上昇するため、その費用対効果は不明だった。研究結果は台湾の研究チームよりnpj Digital Medicineに公開された。本RCTには計15,965名が参加し、介入群（AI-ECG）8,001名、対照群7,964名で比較した。90日死亡率は介入群3.6％、対照群4.3％と有意に低下し、平均医療費はそれぞれ6,204米ドル、5,803米ドル（差額402米ドル）とややコスト増となった。これは、1人当たりの追加コスト約59,500米ドルで死亡を1件回避できる計算（95％CI：−4,657～385,950）となる。被験者の平均年齢が61歳であり、台湾の平均寿命80歳を考慮し控えめに見積もっても7~12年生存することを考えると、この追加コストは台湾の一人当たりGDP（33,234米ドル）の水準を大幅に下回る結果となり、費用対効果は十分に見込める結果となった。著者は「本システムが短期的にはわずかなコスト増で死亡率を有意に低減し、中所得国の保険者視点でも実施価値が高い」と述べている。一方、試験は台湾単一医療体制下かつ90日間の解析に限定され、実装・保守コストや長期的評価を含まない点に限外があり、今後は他国・他施設への外部妥当性検証、導入コストを含む完全コスト評価、アラート閾値の最適化、長期転帰のQALY換算分析を進め、臨床現場への導入可能性を検証する必要があるとしている。参照論文： Economic analysis of an AI-enabled ECG alert system: impact on mortality outcomes from a pragmatic randomized trial 関連記事： Lark Health – 全米糖尿病予防プログラムで減量とコスト削減を実証米Curai Health –...

思春期メンタルヘルスの課題に対するAI活用：システマティックレビュー

Kazuyo NAGASHIMA - 2025年6月11日

10〜19歳の人口の約7人に1人がメンタルヘルスの問題を抱えていると言われているが、この問題は依然として十分に認識されていない。思春期における精神疾患の罹患率や死亡率を減少させるためには、早期介入と適切なマネジメントが重要であり、AIの活用による貢献が期待されるが、その実態は十分に明らかにされていない。この問題を背景に、カナダの研究チームは思春期のメンタルヘルスにおけるAIの活用についてシステマティックレビューをまとめ、JMIR Mental Healthに発表した。研究チームによると、2024年7月までに発表された思春期のメンタルヘルスにおけるAIの活用に関する研究を、5つのデータベースを用いて検索した結果、88件の論文が特定された。AIは主に診断（78件）に利用されており、次いでモニタリングと評価（19件）、治療（10件）、予後（6件）が続いた。研究の内容は主に気分障害とうつ病に焦点を当てており、その他には自殺・自傷行為、自閉症スペクトラム、薬物依存、アルコール関連障害などが挙げられた。機械学習モデルに関しては、サポートベクターマシンが最も頻繁に利用されていた（21件）。研究者らは、「現時点では、AIの活用はほとんどが診断に限られており、今後は他の分野におけるAI研究が促進されることが期待される。また、医療従事者や患者などのエンドユーザーの積極的な関与が、今後の優れたAIアプリケーションの開発において重要である」と述べている。参照論文：Use of Artificial Intelligence in Adolescents’ Mental Health Care: Systematic Scoping Review of Current Applications and Future Directions 関連記事：1. WHO研究 – メンタルヘルスにおけるAI応用と課題2. テキストメッセージのNLP解析...

大規模言語モデルを用いた皮膚疾患の診断精度の比較

Kazuyo NAGASHIMA - 2025年6月4日

大規模言語モデル（LLM）による皮膚科的診断は、診断サポートとして有益な可能性がある一方で、診断の正確性に関する知見は限られている。ドイツの研究チームは、乾癬、白斑、丹毒、酒さの4つの皮膚科疾患について、7つのLLM（GPT-4o、GPT-4o mini、Gemini 1.5 Pro、Gemini 1.5 Flash、Claude 3.5 Sonnet、Llama 3.2 90B、Llama 3.2 11B）の診断性能を比較し、その成果をDiagnosisに発表した。研究チームは、オンラインの皮膚疾患データベース「Atlas Dermatológico」と「DermIS.net」から、乾癬（254枚）、白斑（108枚）、丹毒（85枚）、酒さ（53枚）の4つの皮膚疾患に関する合計500枚の画像を引用し、データセットを作成した。バイアスを避けるため、7つのLLMに対して標準化されたプロンプトを使用した。最も高い正解率を達成したLLMはGPT-4o（67.8%）であり、最も低い正解率を示したのはGemini 1.5 Flash（37.0%）であった。さらに、疾患別の平均正解率については、乾癬が59.2%と最も高く、丹毒が33.4%と最も低かった。今回の研究では、LLMは、特に乾癬の紅斑に見られるような境界が明瞭な皮疹を高い精度で識別できることが示された。一方で、本研究は4つの疾患のみを対象としており、研究チームは「LLMの性能をより包括的に評価するためには、多様な皮膚疾患を含めた検証が必要である」と述べている。本文には、全てのLLMで正しく診断された画像や誤診された画像など、実際の画像が掲載されているため、興味のある読者には参照することをお勧めしたい。参照論文：Large language models for dermatological image interpretation – a comparative...

人工妊娠中絶を予測するAI – エチオピア

Kazuyo NAGASHIMA - 2025年6月2日

全世界で毎年約7,300万件の人工妊娠中絶が行われており、そのうち安全性を欠く中絶の約97%は開発途上国で実施されている。中絶に至る要因を特定することは、ヘルスプロモーションの観点から重要だが、現時点では機械学習を利用した予測モデルに関する研究は限られている。エチオピアの研究チームは、エチオピアにおける中絶の予測因子を特定することを目的とした機械学習モデルを開発した。 Scientific Reportsに発表された論文によると、研究チームは生殖年齢（15〜49歳）の女性14,931人を対象に、居住地、年齢、夫の年齢、学歴、婚姻状況、職業、経済状況、医療施設へのアクセスなど12の特徴量を用いて7つの学習モデルを検証した。その結果、最も優れた予測精度を達成したモデルはランダムフォレストであり（正解率0.91、AUC0.97）、次いでXGBoostが優れていた（正解率0.87、AUC0.94）。さらに、SHapley Additive exPlanations（SHAP）分析によると、重要な予測因子として若年齢（SHAP値+0.060）、より若い夫（SHAP値+0.050）、18歳未満での初産（SHAP値+0.052）などが特定された。今回、若年齢が最も重要な予測因子として特定されたが、これはリプロダクティブヘルスに関する知識不足や、家族やパートナーからの支援不足など、若者が直面する特有の問題に起因する可能性がある。研究者らは、「機械学習と公衆衛生の研究を融合させ、リプロダクティブヘルスの向上を目指す」と述べている。参照論文： Application of machine learning algorithm for prediction of abortion among reproductive age women in Ethiopia 関連記事：「貧困地域で正確な妊娠週数」を算出するAI超音波システムスタンフォード大学AIMI – 女性・子どもの健康増進へのAI利用 Apple Women’s Health Study –...

AI血液検査で膵がんの治療反応性を予測

Y Global - 2025年5月29日

膵がん治療の効果判定には、従来の画像診断ではタイムリーかつ正確な評価が難しく、特に免疫療法では結果解釈が複雑になりがちである。米ジョンズ・ホプキンス大学キンメルがんセンターの研究チームは、血液中を循環する腫瘍由来DNA断片の解析にAIを応用した新技術「ARTEMIS-DELFI」を開発した。膵がん治療開始後わずか数週間で治療効果をリアルタイムに見極められる可能性を示し、従来の臨床・分子マーカーや画像モニタリングよりも優れた予後予測能力を持つことが明らかになった。本研究では、膵臓がんに対する免疫療法の第2相試験に参加している患者を対象に、ARTEMIS-DELFIと従来法「WGMAF」を検証した。結果はどちらも治療効果のある患者を特定できたが、WGMAFは腫瘍組織のDNAと血液サンプル中の遊離DNAから治療反応を予測するものであり、全ての患者に腫瘍組織サンプルあるわけではないため解析が困難なケースもあった。一方で、ARTEMIS-DELFIは患者の血液だけでAIが百万単位遊離DNA断片の断片化プロファイルとリピート配列を網羅的にスキャンするため、簡便かつ幅広い患者に適用可能で、治療開始4週間後には治療有効例と治療無効例を高精度に識別できることが検証された。著者であるVictor E. Velculescu氏は「新しい膵がん治療薬が増えている今、時間が最も重要であり、治療効果がない場合は速やかに別の選択肢へ切り替えたい」と述べ、ARTEMIS-DELFIは「ファストフェイル（早い失敗）」アプローチで治療抵抗性患者の早期発見に貢献し得る。共著者のCarolyn Hruban氏は「腫瘍サンプル不要でコストも抑えられ、臨床導入が容易」と強調し、前向き研究による臨床効果の検証と他腫瘍への応用が期待される。参照論文： Genome-wide analyses of cell-free DNA for therapeutic monitoring of patients with pancreatic cancer 関連記事： AIが腹腔洗浄細胞診から「膵臓がんの1年生存率」を予測「電子の鼻」で卵巣がんと膵臓がんを血液から検知血液から脳腫瘍の有無を予測するAI研究

心機能評価の革新：単一の超音波静止画から左室駆出率を予測するAI

R.A. - 2025年5月28日

左室駆出率（LVEF）は心機能を反映する重要な指標である。これまでの予測モデルは、主に心エコー動画を入力に用いるものだったが、計算資源が限られる場では、モデルの利用が難しかった。この課題に対し、米Mayo Clinicらの研究チームは、心エコーの単一静止画（フレーム）からLVEFを推定する高精度なAIモデルを発表した。同研究はLancet Digital Healthに掲載されている。本研究では、19,627人の患者の心エコー動画から得た473,803枚のフレームを用いて、2次元畳み込みニューラルネットワーク（CNN）の一つであるResNet の学習を行った。動画データは，経胸壁エコーデータとポータブルエコーデータの2種があり、学習用フレームは、各患者の動画複数本から最大8枚のフレーム（オリジナルおよびデータ拡張したもの）をランダムに抽出したものを用いた。本モデルでLVEF推定タスクを行った結果、患者の各心エコー動画から1フレームのみを選択し、それぞれ算出したLVEF推定値をまとめて平均化することで、経胸壁エコーデータではAUCが0.90超、ポータブルエコーデータではAUCが0.85超という高い精度を示した。また、収縮末期時点のフレームを用いた際、より正確な推定値となることも明らかとなった。研究者らは「データ削減をしてもなお、十分な精度が出ると示すことが出来た。また、計算負荷の高いビデオ処理のハードルが大幅に低減されることで、ポータブルエコーの有用性はさらに増していくだろう。迅速かつ正確な診断が求められるpoint-of-careの場で、本研究のようなモデルが普及すれば、患者ケアはより向上するはずだ」と述べている。今後はpoint-of-careの場でのコホートを用いた外部検証を行っていくことが求められる。参照論文：Snapshot artificial intelligence—determination of ejection fraction from a single frame still image: a multi-institutional, retrospective model development and validation study 関連記事：1.AI心電図により先天性心疾患における左室収縮不全を予測2.日常診療の超音波検査から心筋症の早期発見を行うAI3.AIによる心エコー初期評価

脳MRI画像から無症候性心房細動を予測

Y Global - 2025年5月26日

豪メルボルンの研究チームの研究で、脳卒中後に行う通常のMRI画像に人工知能（AI）を活用することで、無症候性の心房細動（AF）を非侵襲的に高精度で検出できる可能性が示された。AFは不整脈の一種で、脳卒中リスクを5倍も高めるとされる。AFは初期症状が現れずに脳卒中が発生するまで診断されない場合がよくあり、長時間の心拍モニタリングなどの従来のAF診断方法は費用や時間がかかるという課題があった。今回の研究成果はこの課題の解決策となり得る。脳血管疾患ジャーナル「Cerebrovascular Diseases」に掲載された本研究では、電子カルテと各種検査結果からすでに脳卒中の確定診断を受けた235例（AF患者97例、非AF患者138例）の拡散強調画像（DWI）を用い、3D畳み込みニューラルネットワーク（ConvNeXt）を訓練させた。このAIモデルは高いパフォーマンススコアを示し（AUC0.81)、このAIモデルがAFによる脳卒中と動脈硬化による脳卒中を区別する「妥当な分類能」を持つことを示した。さらに、Grad-CAM技術による可視化により、AIが脳梗塞病変部を的確に注視して判別していることも確認された。「MRIはほとんど全ての脳卒中患者で取得されるため、追加負担なくAFの早期検出に役立ちうる」と著者は述べている。今後は多施設共同研究による外部検証が不可欠だが、本手法が実用化されれば、従来の心電図検査では見逃されがちだった無症候性AF患者の早期治療開始が可能となり、脳卒中再発予防や個別化医療の実現に大きく貢献すると期待される。参照論文： Detecting Atrial Fibrillation by Artificial Intelligence-Enabled Neuroimaging Examination 関連記事：ディープラーニングモデルが心房細動を正確に予測カルディオインテリジェンス – 発作性心房細動の兆候を検出するAI技術心電図から「心房細動と心原性脳梗塞の発症」を予測

視覚言語モデルは否定語を理解できない

Y Global - 2025年5月22日

米マサチューセッツ工科大学、米OpenAI社、英オックスフォード大学の新しい共同研究によると、画像と言語を組み合わせた機械学習モデル（VLM：Vision-language models）は「ない」「～しない」といった否定表現をほとんど理解できず、実世界の応用で重大な誤診リスクがはらんでいる可能性があるという。たとえば、胸部X線画像に「組織の腫れはあるが心臓の拡大はない」と記載されている場合、本来は心臓疾患以外の鑑別が必要であるにも関わらず、VLMは「腫れ」「拡大」というキーワードだけを重視し、誤った類似症例を提示する可能性がある。研究チームはまず、既存データセットの画像キャプションを大規模言語モデル（LLM）で再生成し、「～が写っていない」といった否定文を付加。その上で、VLMに対し「ある物体は写っているが別の物体は写っていない」画像を検索させるタスクや、選択肢のキャプションから正しい否定表現を選ばせる多肢選択問題を実施した。結果はいずれもランダム推測と同等かそれ以下で、画像検索精度は約25％低下、選択問題の精度は最高でも約39％に留まった。これは、モデルが否定語を無視し画像内の肯定的要素に偏る「肯定バイアス」を含むことが原因だという。そこで、10万件以上の否定キャプション付き画像データを用意しVLMをファインチューニングしたところ、画像検索精度が約10％、選択問題の精度が約30％向上した。リード著者のKumail Alhamoud氏は「データ拡張で一歩前進したが、根本的な解決にはアーキテクチャの見直しが必要」と強調した。筆頭著者のMarzyeh Ghassemi准教授も「否定表現すら正しく扱えない状況では、VLMの医療現場展開は慎重でなければならない」と警鐘を鳴らした。今後は、テキストと画像を別々に処理する手法の導入や、医療向けなど応用領域に特化した否定キャプションデータセットの拡充を進め、実践的かつ安全なモデルを目指すとしている。参照論文： Vision-Language Models Do Not Understand Negation 関連記事：医療LLMに潜む社会的バイアス医療画像処理AI開発における「29の潜在的バイアス」 LLM構築と利用は医療者が推進すべきか？

犬とAIが呼気から早期がんを検出する技術、約2000万ドル集まる – 米SpotitEarly

Y Global - 2025年5月21日

非侵襲で自宅で手軽に実施できる「呼気テストによる早期がん検出機器」を手がけるバイオテックスタートアップである米SpotitEarly社が、2,030万ドルの資金調達を果たし米国でのサービス開始を目指す。このテストは、訓練された犬とAIを組み合わせて呼気中の揮発性有機化合物（VOCs）を分析し、女性に最も多い乳がんをはじめ、結腸直腸がん、前立腺がん、肺がんなどを極めて早期の段階で発見できる。Nature誌の「Scientific Reports」に発表された臨床試験では、約1,400名を対象に2年間にわたって検証し、約94%と高精度にがんの検出が可能であることを報告している。米国におけるがん治療費は2030年までに2,450億ドルに達すると予想されており、SpotitEarly社のがんスクリーニングはタイムリーな解決策となり得る。同社の技術は、訓練された犬の嗅覚と、犬の身体的、行動的シグナルデータを分析するAIにより、がんのバイオマーカーとして知られるVOCsの微量変化を検出する点が先進的で、従来のマンモグラフィーや血液検査を補完する非侵襲的かつ低コストなスクリーニング手段として期待されている。医師や研究者を科学顧問に迎え、分子遺伝学の権威David Sidransky氏や米国がん協会の元副最高医療責任者のLen Lichtenfeld氏など、米国有数の専門家陣が臨床試験や製品開発を支援している。「早期発見が生存率を最大99％まで高め、医療費を大幅に削減する可能性がある」と評価するHanaco VenturesのAlon Lifshitz氏。SpotitEarlyのCEOであるShlomi Madar氏は「これまでアクセスが難しかったがんスクリーニングを、我々の技術で万人に届けられる」と意気込む。製品は2026年に米国での一般販売を予定し、将来的にはさらなるがん種への拡張や、集団検診への導入を進めることで、世界的ながん検出のパラダイムシフトを目指している。参照論文： Non-invasive multiple cancer screening using trained detection canines and artificial intelligence: a prospective double-blind study 関連記事： Opteev社「ViraWarn」 – 呼吸器感染ウイルスを呼気から検出犬の嗅覚を模倣した人工嗅覚システムで前立腺がん検出細菌を嗅ぎ分ける人工鼻「C-dot-IDEs」

AIを用いた医療関連感染症のサーベイランス：システマティックレビュー

Kazuyo NAGASHIMA - 2025年5月19日

医療関連感染症（HAI）は、入院中の死亡率の上昇、入院期間の延長、多剤耐性菌の増加などにつながる重要な問題である。HAIのサーベイランスは予防的介入のために重要だが、従来のIPC（感染予防管理）専門家による手動のサーベイランスは多くの労力と時間を要する。この課題を克服するために、AIを用いたHAIサーベイランスが注目を集めており、現状の成果を評価することを目的として、イタリアの研究チームがシステマティックレビューを実施した。 Artificial Intelligence in Medicineに発表された論文によると、研究チームは2013年から2023年の間に発表されたAIを用いたHAIのサーベイランスに関する研究を検索した結果、249件の論文がレビューの対象となった。HAIの内訳は、敗血症が約半数を占め、手術創感染、中心静脈カテーテル感染など多岐にわたり、特にICUでのHAIに注目する論文が多かった。AIの学習に使われたデータは、電子カルテ上の血液データや時系列データ、文章、画像、センサー信号などで、AIの評価としてはAUCや特異度が平均0.80以上と高い一方、感度は0.37～0.88とばらつきが大きいことが明らかになった。その原因として学習データの偏りや各施設でのデータ品質の差異、さらには予測対象となる感染定義そのものの不統一が影響している可能性に言及する。また、外部検証がされている論文はわずか12％で、臨床試験や実運用テストは数％にとどまり、費用対効果や患者アウトカムへの影響評価も限られていた。なお、敗血症のサーベイランスにおいてはAIモデルが従来法より特に優れたパフォーマンスを示していた。研究者らは、「AIによるHAIサーベイランスは優れた研究結果が出ている一方で、臨床現場への導入は、現時点ではほとんど行われていない。AIモデルの開発者と医療現場が協力し、臨床転帰、コスト削減、普及率など、AIモデルの実臨床への影響を評価することが極めて重要である」と述べている。参照論文： Are AI-based surveillance systems for healthcare-associated infections ready for clinical practice? A systematic review and meta-analysis 関連記事：「敗血症治療開始の最適なタイミング」を予測するAI 侵襲性カンジダ感染症の死亡リスク因子を特定する機械学習研究 AIは院内の敗血症を防ぐことができるか？

顔写真から生物学的年齢を推定、がん患者の予後予測に寄与するAI「FaceAge」

R.A. - 2025年5月15日

暦年齢は、多くの予測モデルやリスク因子に採用される特徴量である。一方で、暦年齢と実際の老化スピードには乖離があり、生物学的年齢や健康状態は、外見的な特徴に反映されているとの議論がある。このほど、ハーバード大学らの研究チームは、顔写真から生物学的年齢を高精度に推定するAI「FaceAge」を開発し、またがん患者の予後予測における有用性の検証を行った。研究成果は、The Lancet Digital Healthに掲載されている。本研究では、58,851人の60歳以上の公開顔写真データセット（IMDb-Wiki、UTKFace）を用いて、FaceAgeシステムを訓練した。同システムは、入力画像からの顔検出と特徴抽出を2種の畳み込みニューラルネットワーク（CNN）で行い、線形回帰で連続値としての生物学的年齢の推定を行う2段階パイプラインを構築した。次に、FaceAgeを用いて、6,196人のがん患者および535人の非がん患者（対照群）の全生存期間との関連の検証を行った。その結果、FaceAgeが、暦年齢や既存の臨床因子を用いた予後予測を大きく上回る予測力を示した。暦年齢や性別で調整した後も、FaceAgeの推定年齢がより高いと予測された患者は、全生存期間が短いという相関関係があった（p=0.0013）。また、がん患者は対照群と比べ、暦年齢よりも平均4.79歳高く推定されていた。臨床現場での応用については、FaceAgeを用いると臨床医の予後予測精度が有意に向上することも検証された。さらに、FaceAgeの結果がCDK6など細胞老化関連遺伝子との関連も示唆された。研究チームは「これまで、患者の外見的特徴は、主観的な判断材料でしかなり得なかったが、深層学習を用いることで、予後予測因子として有益なものとなるだろう。遺伝子変異との関連など、分子マーカーとの関連についても更に研究を進めていきたい」と述べている。参照論文：FaceAge, a deep learning system to estimate biological age from face photographs to improve prognostication: a model development and validation...

経膣分娩における分娩後出血の予測を行う機械学習モデル

Kazuyo NAGASHIMA - 2025年5月13日

分娩後出血は時に致命的であり、特に発展途上国では妊産婦死亡率の主要な原因の一つとなっているものの、従来の技術では分娩後出血の予測を正確に行うことが困難である。この課題を克服するために、中国の研究チームはSHapley Additive exPlanations分析（SHAP分析）を機械学習モデルに統合し、経膣分娩における分娩後出血のリスク予測モデルを開発した。 BMC Pregnancy and Childbirthに発表された同研究では、2018年から2023年までの間に、中国北東部の3つの三次病院で経膣分娩を行った24,833名を対象とした。患者情報・既往歴・分娩プロセス・新生児所見などの計34項目の特徴量を用いて6つの機械学習モデルが学習され、その中でXGBoostが最も優れたパフォーマンスを示し、訓練データセットに対してAUC0.997と優れた結果を示した。また、SHAP分析の結果、新生児体重が3,500g以上であることや、分娩第二期が100分以上、破水の有無、母体年齢など分娩後出血の予測に重要な15の特徴量が特定された。これら15の特徴量のみをXGBoostに学習させても予測精度は大きな低下なく、外部検証データセットのAUCは0.880であった。研究チームは、「本モデルは、経膣分娩後の出血リスクの予測に革新をもたらす可能性があるが、分娩後出血に関連する死亡率の低下につながるかどうかについては、大規模データセットを用いた前向き研究が必要である」と述べた。参照論文： Integrating SHAP analysis with machine learning to predict postpartum hemorrhage in vaginal births 関連記事： Baymatob社「Oli」 – 産後出血を予測するAIデバイス産後出血を正確に定義する「デジタル表現型」分娩中にリアルタイムでリスク予測

年齢、ADA、LDHのみから胸水の原因疾患を特定する機械学習モデル

Kazuyo NAGASHIMA - 2025年5月12日

胸水はさまざまな疾患によって引き起こされる可能性があり、その鑑別は多岐にわたる。胸水の原因疾患を特定するための機械学習モデルが開発されているが、大半のモデルでは10個以上の特徴量の入力が必要であり、これが検査費用の増加につながっている。中国の研究チームは、年齢、胸水ADA、胸水LDHを用いて、胸水の鑑別を行う機械学習モデルを開発した。 Respiratory Researchから発表された研究論文によると、研究チームは2014年から2024年までに胸水検査を受けた入院患者742名（癌性胸水53.3％、結核性胸水34.1％、肺炎随伴性胸水4.2％、漏出性胸水4.4％、その他3.8%）を解析に含め、6つの機械学習モデルを訓練した。その結果、癌性胸水の診断においてXGBoostとランダムフォレストが0.890を超えるF1スコアを達成し、結核性胸水の診断においては、k近傍法が0.870以上のF1スコアを示し優れたパフォーマンスを発揮した。また、癌性胸水、結核性胸水、漏出性胸水の分類に関しては、すべてのモデルでAUCが0.890以上を示し、従来のカットオフ法と比較して優れた結果となった。一方で、肺炎随伴性胸水は他の胸水と比べるとやや分類が難しく，AUCは約0.70であった。特徴量としては、年齢、ADA、LDHが用いられ、ADAが診断上最も重要であることが明らかになった。本機械学習モデルにより、3つのパラメータのみで胸水の原因疾患を特定できる可能性が示された。研究者らは、「予測能力を向上させるためには、さらに大規模かつ多様なデータセットにおいてモデルの検証が必要である」と述べている。参照論文： Machine learning-based Diagnostic model for determining the etiology of pleural effusion using Age, ADA and LDH 関連記事：非専門医による肺エコー検査、AIガイド下で精度向上転移細胞の画像から原発巣を特定するAIアルゴリズム胸部X線AIモデルが示す人種間と性別間のバイアス

網膜眼底画像を用いて糖尿病関連腎臓病の検出を行う深層学習モデル

Kazuyo NAGASHIMA - 2025年5月9日

糖尿病関連腎臓病（DKD）の早期発見と糖尿病性腎症（DN）の特定は、早期治療介入において重要である。中国の研究チームは、網膜眼底画像からDKDとDNを検出する深層学習モデル「Deep DKD」を開発し、その成果をLancet Digital Healthに発表した。上海糖尿病予防プログラムのコホートから70万枚を超える網膜眼底画像を取得し、Deep DKDの事前学習を行った。DKD検出に関する内部検証では、約50万枚の網膜眼底画像と臨床データ（性別、BMI、喫煙状況、血圧、糖尿病罹患期間、HbA1cなど）を用い、AUCは0.842だった。外部検証は、シンガポール、マレーシア、オーストラリア、イギリスにおける10のコホートから得られた多民族データセット（65,406名）を使用して行い、AUC0.791から0.826を達成している。また、DNと非DKDの鑑別に関しては、約1,000枚の網膜画像による内部検証でAUCは0.906を示した。外部検証は、中国、マレーシア、イギリスの3つの多民族データセット（244名）で行われ、AUCは0.733から0.844を達成している。さらに、上海のプライマリーケアクリニックで行われた前向き研究では、DKDの同定において感度89.8%を示した。現在、DNの確定診断には腎生検が必要だが、このような侵襲的な検査を行うことなくDNを同定することが期待されている。研究チームは、「Deep DKDを網膜眼底検査の定期的な検査に組み込むことで、DKDのスクリーニング、ひいてはDNの同定が可能となり、費用対効果が高く、プライマリーケアの現場での活用が期待できる」と述べた。参照論文： Non-invasive biopsy diagnosis of diabetic kidney disease via deep learning applied to retinal images: a population-based study 関連記事：糖尿病網膜症の検出AI―臨床現場における成果― 糖尿病に伴う全身性血管障害を網膜画像から予測するAI：システマティックレビュー AIは腎臓病と透析導入を予防できるか？

1 234 5 ページ％CURRENT_PAGE％の％TOTAL_PAGES％

年間アーカイブ 2025

最新の記事

注目の記事

注目の記事

最新の記事