カナダは民族的な多様性のある移民の国として知られる。しかし、国内の大規模データベースに民族情報が不足していることが、民族間の健康要因を検討する際に公衆衛生学的課題とされていた。いわゆるアボリジニ(カナダ先住民であるファースト・ネーション、イヌイット、メティらの総称)が社会的不平等から健康上の課題を抱えている可能性は常に指摘がある。「民族情報を名前と居住地から機械学習アプローチにより予測する」研究がカナダ・アルバータ大学のグループによって査読つきオープンアクセスジャーナル PLOS ONEに発表されている。
アルバータ大学のニュースリリースでは同研究を紹介している。カナダにおける1901年の国勢調査にある480万人の「名前」と「位置情報」を分析する機械学習フレームによって、その個人が13の民族グループのいずれに属するかを予測した。民族・言語グループによって、名前の響き・文字数・母音の数・固有の文字列などに特徴が現れることに着目している。名前だけでも特に中国人・フランス人・日本人・ロシア人にルーツをもつ個人の識別に優れたパフォーマンスを発揮できたが、アボリジニについては位置情報も含めることで予測精度が向上した。
筆頭著者のWong氏によると「米国の医療記録には民族情報に関する質問が含まれる傾向があるが、カナダのデータベースでは一貫して収集されていない」という。Wong氏は特に多民族性の強いノースウエスト準州で疫学調査ポストに就いていた際、先住民の健康に影響を与える医療の社会的不平等に関心をもった。費用と時間を要する国勢調査レベルのものを新たに実施するより、同研究のアプローチでは既存の記録から多くのことを学べる点に優位性がある。将来的にはカナダの疫学調査において、同研究のような民族性で補強されたエビデンスが応用されていくことを研究グループは期待している。