医療とAIのニュース医療におけるAI活用事例医療AIがもたらす影響・問題点データベースのオフラベル使用が生むAI開発の「データ犯罪」

データベースのオフラベル使用が生むAI開発の「データ犯罪」

近年におけるAIアルゴリズムの進歩は、膨大なオープンソースデータベースからのトレーニングに支えられている。しかし、それらデータセットが「off-label(適応外)」で使用されると、「機械学習がバイアスにさらされてAIアルゴリズムの整合性が損なわれる」という研究成果が米カリフォルニア大学バークレー校(UCB)の研究チームらによって発表されている。

Proceedings of the National Academy of Sciences(PNAS)に掲載された同研究では、ある目的のために公開されたデータを別のタスクに利用する「off-label」使用によって生じる問題を論じている。公開データの中には、データの特徴を変えてしまう前処理がされ、生データではないものが含まれていることがある。経験の浅いAI研究者が、このことを見過ごしたままデータセットを利用し、AIアルゴリズムを訓練した場合、大きなバイアスが生じる可能性がある。本研究では実例として、MRI検査画像を再構成するアルゴリズムについて取り上げている。そこに公開データベースを適用した場合、最大48%もの人為的なバイアスを生み出してしまう、という結果が示された。

UCBのインタビューに対し、主執筆者のEfrat Shimron氏は「多くのデジタル写真家は、生の画像ファイル(RAW image)には圧縮されたものより多くのデータを含むと知っている。AIアルゴリズムの訓練は生の測定値から行うのが重要だが、そのような公開データベースは少ないため、ソフトウェア開発者は”一見生のように見える”測定値からアルゴリズムを開発していることがある」と語る。本研究では、処理済みデータの使用による画像再構成アルゴリズムが、生データからの画像再構成よりも有意に鮮明でシャープな優れた画像を生成してしまう可能性を示したが、Shimron氏によると「問題は、この結果があまりに良過ぎたことだ」とする。本研究内ではこの問題を暗黙の「data crimes(データ犯罪)」と断じて、拡大するビッグデータ問題へ社会の認識が高まることを期待している。

関連記事:

  1. 英政府 – 「医療AIのバイアス解消」に向けた新しい取り組みを公表
  2. 画像解析AIが内包する過小診断バイアス
  3. 大規模バイオデータバンクに入り込むバイアス
  4. 人種バイアスは除去できるか? – 網膜血管から人種を識別するAI

TOKYO analyticahttps://tokyoanalytica.com/
TOKYO analyticaはデータサイエンスと臨床医学に強力なバックグラウンドを有し、健康増進の追求を目的とした技術開発と科学的エビデンス構築を主導するソーシャルベンチャーです。
The Medical AI Timesにおける記事執筆は、循環器内科・心臓血管外科・救命救急科・小児科・泌尿器科などの現役医師およびライフサイエンス研究者らが中心となって行い、下記2名の医師が監修しています。

1. 岡本 将輝
信州大学医学部卒(MD)、東京大学大学院専門職学位課程修了(MPH)、東京大学大学院医学系研究科博士課程修了(PhD)、英University College London(UCL)科学修士課程最優等修了(MSc with distinction)。UCL visiting researcher、日本学術振興会特別研究員、東京大学特任研究員を経て、現在は米ハーバード大学医学部講師、マサチューセッツ総合病院研究員、SBI大学院大学客員准教授など。専門はメディカルデータサイエンス。

2. 杉野 智啓
防衛医科大学校卒(MD)。大学病院、米メリーランド州対テロ救助部隊を経て、現在は都内市中病院に勤務。専門は泌尿器科学、がん治療、バイオテロ傷病者の診断・治療、緩和ケアおよび訪問診療。泌尿器科専門医、日本体育協会認定スポーツドクター。
RELATED ARTICLES

最新記事

注目の記事