6月, 2025 | 医療とAIのニュース・最新記事

医療とAIのニュース 2025 6月

外耳道分泌物からパーキンソン病を予測するAI

Y Global - 2025年6月30日

パーキンソン病（PD）は高齢者に多く見られる進行性の神経変性疾患で、現在の診断基準（MDS-UPDRSや各種画像診断）は「主観的評価」や「高コスト・長時間」を伴い、早期発見・介入には不向きとされる。中国の研究チームは、より簡便かつ低コストにPDのバイオマーカーを検出する手法として、外耳道分泌物（ECS）中の揮発性有機化合物（VOC）に着目し、VOCのプロファイルを解析することで、非侵襲的・迅速にPDをスクリーニングできる可能性を示し、その成果をAnalytical Chemistyにて発表した。まずECS試料を調べ、PD患者と健常者で有意差を示した14種のVOCのうち、エチルベンゼン、4-エチルトルエン、ペンタナール、2-ペンタデシル-1,3-ジオキソランの4成分を最終的なバイオマーカー候補とした。これらを入力特徴量とした機械学習モデル（サポートベクターマシン）が約84.3%の精度でPDの有無を正確に識別した。その後、4成分のクロマトグラフィーから得られる時系列情報を計測、それを2Dマトリクス化（2次元データ化）し、畳み込みニューラルネットワークで学習させる「AIOシステム」を構築。クロマトグラフ情報を活かすことで、検査時間やコストを抑えつつ、94.4%の正答率かつAUC0.98の識別性能を実現した。本研究は、環境変動の少ない外耳道分泌物を用いることで、皮膚表面にくらべてサンプルの安定性を確保できる点を示した。著者は「今後は、ECS採取プロトコルの標準化や被験者層の拡充、疾患ステージ別の多クラス分類モデルの開発を進め、臨床導入を目指している」と述べた。また、小型化・簡易化したAIOデバイス化により、外来や在宅での早期スクリーニングツールとして、PD患者の生活の質向上に貢献することが期待されている。参照論文： An Artificial Intelligence Olfactory-Based Diagnostic Model for Parkinson’s Disease Using Volatile Organic Compounds from Ear Canal Secretions 関連記事：網膜眼底画像によるパーキンソン病スクリーニングウェブカメラとAIによる「パーキンソン病の家庭評価」眼球スキャンでパーキンソン病の兆候を7年前に検出

希少遺伝性疾患の表現型診断における最新AI研究

Y Global - 2025年6月26日

希少疾患は患者数が極めて少ないため、臨床経験やデータが不足し、約70％の患者が未診断のまま診断の迷宮に陥っている。従来の機械学習や深層学習は多数のラベル付き症例を前提とするため、希少疾患には適用が困難だった。そこで米ハーバード大学の研究チームは、知識グラフと偽患者データを活用した少数例学習モデル「SHEPHERD」を開発し、npj Digital Medicineでリリースされた。患者の臨床所見と候補遺伝子を入力すると、遺伝子探索、類似患者検索、新規疾患特徴付けを一挙に実行し、未知の疾患にも対応可能な診断支援を目指している。 SHEPHERDはまず疾患・遺伝子・表現型の関係を表現した知識グラフ（知識の地図）を自己教師ありで学習し、その後20万超のシミュレーション患者で微調整。外部評価では、複数の原因不明疾患データベースの計2,042人の実患者に適用し、専門家が絞った真の原因遺伝子候補リストの上位5位を特定する確率が77.8％に達した。さらに、同じ遺伝子が原因の患者同士を自動的に似たグループにまとめたり、新しい病気でも「どの既知の病気に近いか」がわかる形で説明したりできるようになっている。「SHEPHERDは希少疾患診断における深層学習の壁を突破し、少ない症例でも高精度な支援が可能であることを示した」と著者は述べ、今後は変異レベル情報や動物モデルデータの統合、電子カルテとの連携、臨床ワークフローへの実装評価を進める予定とのこと。AI支援による早期診断が、希少疾患患者の医療負担軽減と治療開始の迅速化に貢献すると期待される。参照論文： Few shot learning for phenotype-driven diagnosis of patients with rare genetic diseases 関連記事：希少疾患診断にAIを活用 GestaltMatcher – 顔分析で希少遺伝子疾患を判別するAIシステム機械学習により4種の自閉症サブタイプを特定

眼底画像を用いて心房細動患者における認知障害を特定する

Kazuyo NAGASHIMA - 2025年6月24日

心房細動（AF）は、認知症の独立したリスク因子である。しかし、認知機能の評価には時間がかかるため、AF患者のスクリーニングには組み込まれていない。AF患者における軽度認知障害への介入を遅らせないためには、簡便なスクリーニングツールが必要である。中国の研究チームは、AF患者における認知障害のスクリーニングを目的として、眼底写真を用いた深層学習モデルを開発し、Heart Rhythm O2に発表した。研究チームによると、2021年から2023年までに眼底評価と認知機能評価（Mini-Mental State Examination）を受けることに同意したAF患者899名を対象とした。4種類の畳み込みニューラルネットワーク（CNN）を組み合わせたモデルが開発され、眼底写真のみに基づくビジョンアンサンブルモデルと、眼底写真に加えて4つの変数（教育レベル、年齢、心不全の有無、BMI）を考慮したマルチモーダルモデルで認知障害の検出能力が検証された。その結果、AUCはビジョンアンサンブルモデルで0.855、マルチモーダルモデルで0.861と高精度な結果となり、かつ両者に有意差は認められなかった。ビジョンアンサンブルモデルは、特に網膜血管と視神経乳頭周辺領域に注目して予測していることが明らかになっている。実際の臨床現場では、認知障害が深刻化してから受診するケースが多い。著者らは、「現在、眼底写真の撮影がスマートフォンなどによってますます簡便になっており、本深層学習モデルを用いることで、AF患者における認知障害を迅速かつ効率的にスクリーニングできる可能性がある」と述べている。参照論文： Screening cognitive impairment in patients with atrial fibrillation: A deep learning model based on retinal fundus photographs 関連記事： Cognetivity – AIによる認知障害の初期兆候検出 RetiSpec社 –...

医療LLMの診断精度は「人間との対話」を介して大きく低下する

Y Global - 2025年6月23日

近年、ChatGPTなどの大規模言語モデル（LLM）は医師向け試験で高得点を出し、初期診断や健康相談への応用が期待されている。しかし、こうした「医療知識」ベンチマークが、一般の人が実際に使う際の正確性を保証するわけではない。英オックスフォード大学の研究者はこのほど、医療知識に優れる3種のLLM（GPT-4o、Llama 3、Command R+）が、一般人にどれほど効果的に医療アドバイスを提供できるかを検証した。英国在住の1,298名の一般人を対象に、日常的に遭遇し得る10パターンの症例シナリオを提示。「緊急度の判断」と「想定される疾患の列挙」を課題とし、参加者をLLM3種のいずれか、または自由な方法で情報収集する群（対照群）に無作為割り付けた。LLM単体では疾患同定率94.9％、緊急度判定率56.3％と高精度だったが、参加者がLLMを使った際の正解率は疾患同定率34.5％以下、緊急度判定率44.2％以下にとどまり、対照群と差がない結果となった。対話ログを分析すると、LLMは対話中に65.7％の場面で正答候補を示していたものの、参加者が必要情報を聞き出し切れない、または提示された情報を正しく利用できず、最終回答に至らない例が多かった。一方、医師試験問題を用いたベンチマークやLLM同士の対話シミュレーションでは高精度かつ参加者実験との相関が低く、実運用の失敗を予測できなかった。研究者は「専門家レベルの知識保持だけでは、一般ユーザーとの対話を介した医療相談には不十分」と警鐘を鳴らした。今後は、一般向け医療チャットボットを導入する前に、実際の人間を用いた対話テストやユーザー行動分析を体系的に行うことが不可欠と考えられる。また、情報の抜け漏れを補うインタラクション設計や、正しい提案を確実にユーザーに伝える説明機能の強化など、対話性能を向上させる技術開発が急務とされている。参照論文： Clinical knowledge in LLMs does not translate to human interactions 関連記事：医療LLMに潜む社会的バイアス大規模言語モデルが「人種差の誤った医学知識」を拡散する恐れ視覚言語モデルは否定語を理解できない

心臓CT画像から死亡率を予測 – 多施設共同研究

Y Global - 2025年6月20日

米ロサンゼルスの研究チームが、従来心筋灌流検査時の減弱補正やカルシウム定性評価のみに用いられてきた低線量CT減弱補正スキャン（CTAC）を活用し、AI技術によって胸部における体組成を定量的に評価し、全死因死亡リスクの層別化に役立てる新たなアプローチを提案し、研究成果がThe Lancet Digital Healthで公開された。CTACは米国で年間600万件以上実施されるが、その診療価値は限定的であったため、既存検査の情報を拡張し、追加の被ばくなしに臨床意思決定を強化することが求められている。国際共同レジストリREFINE SPECTに登録された11,305例のうち、胸椎T5–T11を含むCTACスキャンと臨床データが揃った9,918例を対象に、AIベースの自動セグメンテーション（TotalSegmentator等）と画像処理技術で骨、骨格筋、皮下脂肪、筋間脂肪、内臓脂肪、心外膜脂肪を抽出。体積指数とCT値（減衰値）の標準偏差を算出し、中央値2.48年（IQR1.46–3.65）の追跡期間中610例の死亡（6%）を観察した。多変量Coxモデルで、内臓脂肪CT値高値（HR2.39、p<0.0001）、心外膜脂肪（1.55、 p<0.0001）、筋間脂肪（1.30、p=0.012）は死亡リスク上昇と関連していることが判明した。一方、骨CT値高値（0.77、p=0.016）や骨格筋体積指数高値（0.56、p<0.0001）はリスク低減と関連し、既存の臨床リスク因子や灌流・カルシウム指標を上回る予後予測能を示した。著者は「CTACスキャンに含まれる豊富な体組成情報を、追加撮影なくAIで自動抽出できれば、検査価値を飛躍的に向上させ得る」と強調する。今後は、多施設前向きコホートや他の胸部CTへの適用検証、最適カットオフの策定、QALY評価を含む長期アウトカム解析、臨床ワークフローへの組み込みによる実用化研究を推進し、心血管疾患診療における新たなリスク層別化手法として確立する必要があると述べている。参照論文： AI-based volumetric six-tissue body composition quantification from CT cardiac attenuation scans for mortality prediction: a multicentre study 関連記事： AIによる心臓弁膜症・逆流症の評価とリスク層別化：DELINEATE-Regurgitation研究 AIが「心臓突然死の予知・予防」に役立つ可能性「心臓の丸み」から心疾患リスクを予測

LLMのハルシネーションが新薬開発の手がかりとなり得る

Y Global - 2025年6月19日

大規模言語モデル（LLM）のハルシネーション（事実とは異なる出力）が仮説形成に役立つ可能性が注目されている。LLMのハルシネーションは従来有害なものとされていたが、これを創発的仮説形成の手法として活用することで、従来人間では思いつかなかった有益な仮説を生み出す場合がある。このほど、ケンブリッジ大学の研究チームは、GPT-4を活用し、膨大な文献から得られる知見をもとに、乳がん治療において、FDA承認済みの非抗がん薬を対象としたシナジーの高い薬剤ペアを抽出する新手法を提案した。 Journal of the Royal Society Interfaceに掲載された本研究では、まずGPT-4に対してFDA承認済みの非抗がん薬からなる12組のペアを提案させ、乳がん細胞株（MCF7）および非がん細胞株（MCF10A）に対する細胞生存率アッセイを実施した。２剤併用時の効果を表すHSAシナジースコアを算出したところ、初回スクリーニングで3組の薬剤ペアが臨床で用いられる陽性対照を上回る相乗効果を示し、特にシンバスタチン＋ジスルフィラムやイタコナゾール＋ジスルフィラムがMCF7に対して顕著な選択的毒性を発揮しました。続いて、これらの実験結果をGPT-4にフィードバックして再度4組のペアを生成させたところ、うち3組が再び高いシナジースコアを記録した。こうして、AIによる仮説形成と閉ループ実験の組み合わせが、従来人力のみでは難しかった薬理機序の異なる薬剤の組み合わせ探索を可能とした。ケンブリッジ大学のロス・キング教授は「LLMのハルシネーションを創発的仮説として活用することで、AIは人間の先入観を超えたまったく新しい研究パスを提示できる」と述べた。また、キングズ・カレッジ・ロンドンのヘクター・ゼニル博士も「AI科学者と人間研究者が反復的に協働することで、新しい発見までの時間を飛躍的に短縮できる」と強調した。今後は、厳選された文献や分子データベースを組み込んだプロンプト最適化手法の開発や、他のLLMとのアンサンブルアプローチの実用化が検討されている。参照論文： Scientific hypothesis generation by large language models: laboratory validation in breast cancer treatment 関連記事：医療LLMに潜む社会的バイアス Googleの医療AI「AMIE」が優れた鑑別診断をアシスト視覚言語モデルは否定語を理解できない

2型糖尿病における冠動脈疾患の有無を予測するAI

Kazuyo NAGASHIMA - 2025年6月18日

2型糖尿病（T2DM）は、冠動脈疾患（CHD）の主要なリスク因子であることが知られており、その同定は重要である。CHDの診断には冠動脈造影（CAG）が広く用いられるが、カテーテルを血管内に挿入し、造影剤を用いて冠動脈を映し出すため、侵襲的な手法である。中国重慶医科大学の研究チームは、T2DM患者におけるCHDを予測する機械学習モデルを開発し、その成果をFrontiersに発表した。研究チームによると、中国重慶医科大学の医療データプラットフォームからCAGを受けたT2DM患者のデータをレトロスペクティブに収集し、2,517名を解析の対象とした（T2DM＋CHD群1,943名、T2DM単独群574名）。5つの機械学習モデルが比較され、その結果、RFE（再帰的特徴量削減）＋LightGBMで特徴量選択を行ったXGBoostが最も優れたパフォーマンスを示した（AUC：0.814、正解率：0.799、適合率：0.841、再現率：0.920、F1スコア：0.879）。SHapley Additive exPlanations分析では、年齢、高血圧、喫煙の有無、HbA1c、血糖値、総タンパク、クレアチニン、AST、HDL-コレステロール、リポタンパク（a）、アポリポプロテインA-1、フィブリノーゲン、アルブミンの13の特徴量が重要因子として特定された。今回の研究により、本機械学習モデルを用いることで、容易にアクセスできる臨床データからT2DM患者におけるCHDを特定できる可能性が示唆されている。したがって、本モデルは、特にプライマリケアなどでCHDを容易に同定できない場面において役立つ可能性がある。筆者らは、「時間経過を考慮した予測精度を評価するためには、縦断的な前向き研究によるフォローアップが必要である」と述べている。参照論文：Machine learning-based coronary heart disease diagnosis model for type 2 diabetes patients 関連記事：1. 香港における糖尿病患者の全死因死亡予測モデル開発2. 冠動脈CTAへのAI利用 – プラークの定量と心臓発作リスク予測3. Salix – 冠動脈疾患の早期診断AIツール

AIによる心電図アラートシステムの導入は経済合理性がある

Y Global - 2025年6月17日

本研究は、入院患者の日常的な心電図（ECG）検査にAI解析を組み込み、死亡リスクの高い患者のアラートを医師に即時通知する「AI-ECGアラート」が、既存の迅速対応システムと連携して90日間の全死因死亡率低減したという先行研究に加え、その医療費用対効果を評価したものだ。AIにより死亡率が低下すると同時に、集中的治療や検査の増加により医療コストも上昇するため、その費用対効果は不明だった。研究結果は台湾の研究チームよりnpj Digital Medicineに公開された。本RCTには計15,965名が参加し、介入群（AI-ECG）8,001名、対照群7,964名で比較した。90日死亡率は介入群3.6％、対照群4.3％と有意に低下し、平均医療費はそれぞれ6,204米ドル、5,803米ドル（差額402米ドル）とややコスト増となった。これは、1人当たりの追加コスト約59,500米ドルで死亡を1件回避できる計算（95％CI：−4,657～385,950）となる。被験者の平均年齢が61歳であり、台湾の平均寿命80歳を考慮し控えめに見積もっても7~12年生存することを考えると、この追加コストは台湾の一人当たりGDP（33,234米ドル）の水準を大幅に下回る結果となり、費用対効果は十分に見込める結果となった。著者は「本システムが短期的にはわずかなコスト増で死亡率を有意に低減し、中所得国の保険者視点でも実施価値が高い」と述べている。一方、試験は台湾単一医療体制下かつ90日間の解析に限定され、実装・保守コストや長期的評価を含まない点に限外があり、今後は他国・他施設への外部妥当性検証、導入コストを含む完全コスト評価、アラート閾値の最適化、長期転帰のQALY換算分析を進め、臨床現場への導入可能性を検証する必要があるとしている。参照論文： Economic analysis of an AI-enabled ECG alert system: impact on mortality outcomes from a pragmatic randomized trial 関連記事： Lark Health – 全米糖尿病予防プログラムで減量とコスト削減を実証米Curai Health –...

思春期メンタルヘルスの課題に対するAI活用：システマティックレビュー

Kazuyo NAGASHIMA - 2025年6月11日

10〜19歳の人口の約7人に1人がメンタルヘルスの問題を抱えていると言われているが、この問題は依然として十分に認識されていない。思春期における精神疾患の罹患率や死亡率を減少させるためには、早期介入と適切なマネジメントが重要であり、AIの活用による貢献が期待されるが、その実態は十分に明らかにされていない。この問題を背景に、カナダの研究チームは思春期のメンタルヘルスにおけるAIの活用についてシステマティックレビューをまとめ、JMIR Mental Healthに発表した。研究チームによると、2024年7月までに発表された思春期のメンタルヘルスにおけるAIの活用に関する研究を、5つのデータベースを用いて検索した結果、88件の論文が特定された。AIは主に診断（78件）に利用されており、次いでモニタリングと評価（19件）、治療（10件）、予後（6件）が続いた。研究の内容は主に気分障害とうつ病に焦点を当てており、その他には自殺・自傷行為、自閉症スペクトラム、薬物依存、アルコール関連障害などが挙げられた。機械学習モデルに関しては、サポートベクターマシンが最も頻繁に利用されていた（21件）。研究者らは、「現時点では、AIの活用はほとんどが診断に限られており、今後は他の分野におけるAI研究が促進されることが期待される。また、医療従事者や患者などのエンドユーザーの積極的な関与が、今後の優れたAIアプリケーションの開発において重要である」と述べている。参照論文：Use of Artificial Intelligence in Adolescents’ Mental Health Care: Systematic Scoping Review of Current Applications and Future Directions 関連記事：1. WHO研究 – メンタルヘルスにおけるAI応用と課題2. テキストメッセージのNLP解析...

大規模言語モデルを用いた皮膚疾患の診断精度の比較

Kazuyo NAGASHIMA - 2025年6月4日

大規模言語モデル（LLM）による皮膚科的診断は、診断サポートとして有益な可能性がある一方で、診断の正確性に関する知見は限られている。ドイツの研究チームは、乾癬、白斑、丹毒、酒さの4つの皮膚科疾患について、7つのLLM（GPT-4o、GPT-4o mini、Gemini 1.5 Pro、Gemini 1.5 Flash、Claude 3.5 Sonnet、Llama 3.2 90B、Llama 3.2 11B）の診断性能を比較し、その成果をDiagnosisに発表した。研究チームは、オンラインの皮膚疾患データベース「Atlas Dermatológico」と「DermIS.net」から、乾癬（254枚）、白斑（108枚）、丹毒（85枚）、酒さ（53枚）の4つの皮膚疾患に関する合計500枚の画像を引用し、データセットを作成した。バイアスを避けるため、7つのLLMに対して標準化されたプロンプトを使用した。最も高い正解率を達成したLLMはGPT-4o（67.8%）であり、最も低い正解率を示したのはGemini 1.5 Flash（37.0%）であった。さらに、疾患別の平均正解率については、乾癬が59.2%と最も高く、丹毒が33.4%と最も低かった。今回の研究では、LLMは、特に乾癬の紅斑に見られるような境界が明瞭な皮疹を高い精度で識別できることが示された。一方で、本研究は4つの疾患のみを対象としており、研究チームは「LLMの性能をより包括的に評価するためには、多様な皮膚疾患を含めた検証が必要である」と述べている。本文には、全てのLLMで正しく診断された画像や誤診された画像など、実際の画像が掲載されているため、興味のある読者には参照することをお勧めしたい。参照論文：Large language models for dermatological image interpretation – a comparative...

人工妊娠中絶を予測するAI – エチオピア

Kazuyo NAGASHIMA - 2025年6月2日

全世界で毎年約7,300万件の人工妊娠中絶が行われており、そのうち安全性を欠く中絶の約97%は開発途上国で実施されている。中絶に至る要因を特定することは、ヘルスプロモーションの観点から重要だが、現時点では機械学習を利用した予測モデルに関する研究は限られている。エチオピアの研究チームは、エチオピアにおける中絶の予測因子を特定することを目的とした機械学習モデルを開発した。 Scientific Reportsに発表された論文によると、研究チームは生殖年齢（15〜49歳）の女性14,931人を対象に、居住地、年齢、夫の年齢、学歴、婚姻状況、職業、経済状況、医療施設へのアクセスなど12の特徴量を用いて7つの学習モデルを検証した。その結果、最も優れた予測精度を達成したモデルはランダムフォレストであり（正解率0.91、AUC0.97）、次いでXGBoostが優れていた（正解率0.87、AUC0.94）。さらに、SHapley Additive exPlanations（SHAP）分析によると、重要な予測因子として若年齢（SHAP値+0.060）、より若い夫（SHAP値+0.050）、18歳未満での初産（SHAP値+0.052）などが特定された。今回、若年齢が最も重要な予測因子として特定されたが、これはリプロダクティブヘルスに関する知識不足や、家族やパートナーからの支援不足など、若者が直面する特有の問題に起因する可能性がある。研究者らは、「機械学習と公衆衛生の研究を融合させ、リプロダクティブヘルスの向上を目指す」と述べている。参照論文： Application of machine learning algorithm for prediction of abortion among reproductive age women in Ethiopia 関連記事：「貧困地域で正確な妊娠週数」を算出するAI超音波システムスタンフォード大学AIMI – 女性・子どもの健康増進へのAI利用 Apple Women’s Health Study –...

マンスリーアーカイブ 6月 2025

最新の記事

注目の記事

注目の記事

最新の記事