米マサチューセッツ工科大学などの研究チームは、世界で最も使用されている10の機械学習向けデータセットを調査し、全体で3.4%のラベルエラーが含まれていることを明らかにした。データラベリングは、データサンプルに対して正解をタグ付けするプロセスで、機械学習、特に教師あり学習に関して重要な意味を持つ。ラベルエラーはモデルトレーニングおよび精度検証のいずれもを阻害し、結果を不安定にする可能性がある。
このほど公開されたチームの研究論文によると、データセットのバイアス問題は度々取り上げられるが、実はラベル自体にも多くのエラーが含まれていることを明らかにしたという。コンピュータビジョンアルゴリズムで最も一般的に利用されるデータセットであるCIFAR-10は、動物・乗り物など多くの物体カラー写真に正解ラベルを添えたデータセットであるが、カエルの写真が猫としてラベル付けされていた。また、ImageNetではライオンがパタスモンキー、犬がペーパータオル、ジャイアントパンダはレッサーパンダと、繰り返し誤ったラベル付けがなされていた。研究者らは、ImageNetで6%、QuickDrawで10%を超えるエラーを確認している。
著者らは「欠陥のあるテストデータのために、より複雑なモデルが求められている可能性」を指摘しており、実際は単純なモデルの方が修正済みデータではうまく機能していた点を強調する。機械学習向けデータセットに含まれる広範なエラーについて、その取り扱いと修正に関する議論が続きそうだ。