Google スピーカーのダイアリゼーション技術をオープンソース化

Photo by iStock
最新ニュース

Googleは、スピーカーのダイアリゼーション技術をオープンソース化したことを発表した。ダイアリゼーション技術とは、「誰がいつ話したのか」を推定するもので、複数人の言語処理に不可欠な技術であり、医療現場などへの応用が期待されている。

ITメディアのInfoQは、Googleが人の声を高精度で区別するダイアリゼーション技術をオープンソース化したことを報じた。この技術が進歩することにより、「誰が話したか」が高精度で判別できるようになると、医学会話やビデオ字幕の解析など、多くの場面で応用されることが期待されている。

Google AI Blogでは、この技術についての詳細が明らかにされている。これによると、今回公開されたダイアリゼーション技術では、一般的なクラスタリング技術とは異なり、RNN(再帰型ニューラルネットワーク)と呼ばれる手法を発話者ごとに適用することで、より高度な学習が可能になったようだ。このため、発話者が誰であるかの識別や、話した長さのラベル付けなどの精度が向上したという。今後さまざまな場面において、この技術が活用されることが期待される。