AI合成音声は自動電話サービスやセルフレジ、会話型エージェントシステムなど、生活のあらゆる場面に現れるようになった。多大な恩恵の一方で詐欺に悪用される懸念などから、合成音声であることを人が識別できるかは重要となる。カナダで医療サービスを展開するBaycrestの研究チームは、「AI合成音声に対する年齢層別の知覚特性」を調査している。
International Journal of Speech Technologyに発表された同研究では、Googleの音声合成ソフトWaveNetを用い、若年層(〜30歳)と中高年層(〜60歳)の知覚特性を検証した。被験者にはAI合成音声がどの程度自然に感じられるかを尋ね、人間が話したものかAIが話したものかを識別させた。その結果、若年層と比較して中高年層は合成音声を自然と感じ、正確に区別できない傾向にあることが分かった。
本研究では、AI合成音声に対する識別能低下の要因について、難聴やAI技術への慣れを除外し、「音声に含まれる感情を認識する能力の低下」を仮説に置く。著者のBjörn Herrmann氏は「感情に関する情報を得る際、加齢に伴って、スピーチのリズムやイントネーションより、言葉そのものに注意を払うようになる。一般的にはAI合成音声を識別する際には、言葉の内容よりも、リズムやイントネーションの処理に依存している可能性が高く、このことが高齢層のAI合成音声識別能低下を説明するのではないか」と語る。
参照論文:
The perception of artificial-intelligence (AI) based synthesized speech in younger and older adults
関連記事: