AIと嘘つき教師 – 著名な公開データに多数のラベルエラー

米マサチューセッツ工科大学などの研究チームは、世界で最も使用されている10の機械学習向けデータセットを調査し、全体で3.4%のラベルエラーが含まれていることを明らかにした。データラベリングは、データサンプルに対して正解をタグ付けするプロセスで、機械学習、特に教師あり学習に関して重要な意味を持つ。ラベルエラーはモデルトレーニングおよび精度検証のいずれもを阻害し、結果を不安定にする可能性がある。

このほど公開されたチームの研究論文によると、データセットのバイアス問題は度々取り上げられるが、実はラベル自体にも多くのエラーが含まれていることを明らかにしたという。コンピュータビジョンアルゴリズムで最も一般的に利用されるデータセットであるCIFAR-10は、動物・乗り物など多くの物体カラー写真に正解ラベルを添えたデータセットであるが、カエルの写真が猫としてラベル付けされていた。また、ImageNetではライオンがパタスモンキー、犬がペーパータオル、ジャイアントパンダはレッサーパンダと、繰り返し誤ったラベル付けがなされていた。研究者らは、ImageNetで6%、QuickDrawで10%を超えるエラーを確認している。

著者らは「欠陥のあるテストデータのために、より複雑なモデルが求められている可能性」を指摘しており、実際は単純なモデルの方が修正済みデータではうまく機能していた点を強調する。機械学習向けデータセットに含まれる広範なエラーについて、その取り扱いと修正に関する議論が続きそうだ。

前の記事テクノロジーはCOVID-19ワクチン接種率を高められるか?
次の記事ユニーク研究 – PCのマウス操作がストレスマーカーとなる可能性
TOKYO analyticaはデータサイエンスと臨床医学に強力なバックグラウンドを有し、健康増進の追求を目的とした技術開発と科学的エビデンス構築を主導するソーシャルベンチャーです。
The Medical AI Timesにおける記事執筆は、循環器内科・心臓血管外科・救命救急科・小児科・泌尿器科などの現役医師およびライフサイエンス研究者らが中心となって行い、下記2名の医師が監修しています。

1. M.Okamoto MD, MPH, MSc, PhD
信州大学医学部卒(MD)、東京大学大学院専門職学位課程修了(MPH)、東京大学大学院医学系研究科博士課程修了(PhD)、ロンドン大学ユニバーシティカレッジ(University College London)科学修士課程最優等修了(MSc with distinction)。UCL visiting researcher、日本学術振興会特別研究員を経て、SBI大学院大学客員准教授、東京大学特任研究員など。専門はメディカルデータサイエンス。

2. T.Sugino MD
防衛医科大学校卒(MD)。大学病院、米メリーランド州対テロ救助部隊を経て、現在は都内市中病院に勤務。専門は泌尿器科学、がん治療、バイオテロ傷病者の診断・治療、緩和ケアおよび訪問診療。泌尿器科専門医、日本体育協会認定スポーツドクター。