データベースのオフラベル使用が生むAI開発の「データ犯罪」

2022年3月24日

近年におけるAIアルゴリズムの進歩は、膨大なオープンソースデータベースからのトレーニングに支えられている。しかし、それらデータセットが「off-label（適応外）」で使用されると、「機械学習がバイアスにさらされてAIアルゴリズムの整合性が損なわれる」という研究成果が米カリフォルニア大学バークレー校（UCB）の研究チームらによって発表されている。

Proceedings of the National Academy of Sciences（PNAS）に掲載された同研究では、ある目的のために公開されたデータを別のタスクに利用する「off-label」使用によって生じる問題を論じている。公開データの中には、データの特徴を変えてしまう前処理がされ、生データではないものが含まれていることがある。経験の浅いAI研究者が、このことを見過ごしたままデータセットを利用し、AIアルゴリズムを訓練した場合、大きなバイアスが生じる可能性がある。本研究では実例として、MRI検査画像を再構成するアルゴリズムについて取り上げている。そこに公開データベースを適用した場合、最大48%もの人為的なバイアスを生み出してしまう、という結果が示された。

UCBのインタビューに対し、主執筆者のEfrat Shimron氏は「多くのデジタル写真家は、生の画像ファイル（RAW image）には圧縮されたものより多くのデータを含むと知っている。AIアルゴリズムの訓練は生の測定値から行うのが重要だが、そのような公開データベースは少ないため、ソフトウェア開発者は”一見生のように見える”測定値からアルゴリズムを開発していることがある」と語る。本研究では、処理済みデータの使用による画像再構成アルゴリズムが、生データからの画像再構成よりも有意に鮮明でシャープな優れた画像を生成してしまう可能性を示したが、Shimron氏によると「問題は、この結果があまりに良過ぎたことだ」とする。本研究内ではこの問題を暗黙の「data crimes（データ犯罪）」と断じて、拡大するビッグデータ問題へ社会の認識が高まることを期待している。

人種間の「ゲノムデータ格差」

データベースのオフラベル使用が生むAI開発の「データ犯罪」

最新記事

注目の記事

注目の記事

最新の記事