近年におけるAIアルゴリズムの進歩は、膨大なオープンソースデータベースからのトレーニングに支えられている。しかし、それらデータセットが「off-label(適応外)」で使用されると、「機械学習がバイアスにさらされてAIアルゴリズムの整合性が損なわれる」という研究成果が米カリフォルニア大学バークレー校(UCB)の研究チームらによって発表されている。
Proceedings of the National Academy of Sciences(PNAS)に掲載された同研究では、ある目的のために公開されたデータを別のタスクに利用する「off-label」使用によって生じる問題を論じている。公開データの中には、データの特徴を変えてしまう前処理がされ、生データではないものが含まれていることがある。経験の浅いAI研究者が、このことを見過ごしたままデータセットを利用し、AIアルゴリズムを訓練した場合、大きなバイアスが生じる可能性がある。本研究では実例として、MRI検査画像を再構成するアルゴリズムについて取り上げている。そこに公開データベースを適用した場合、最大48%もの人為的なバイアスを生み出してしまう、という結果が示された。
UCBのインタビューに対し、主執筆者のEfrat Shimron氏は「多くのデジタル写真家は、生の画像ファイル(RAW image)には圧縮されたものより多くのデータを含むと知っている。AIアルゴリズムの訓練は生の測定値から行うのが重要だが、そのような公開データベースは少ないため、ソフトウェア開発者は”一見生のように見える”測定値からアルゴリズムを開発していることがある」と語る。本研究では、処理済みデータの使用による画像再構成アルゴリズムが、生データからの画像再構成よりも有意に鮮明でシャープな優れた画像を生成してしまう可能性を示したが、Shimron氏によると「問題は、この結果があまりに良過ぎたことだ」とする。本研究内ではこの問題を暗黙の「data crimes(データ犯罪)」と断じて、拡大するビッグデータ問題へ社会の認識が高まることを期待している。
関連記事: