Facebookの研究チームは、TEDのスピーチ音声を元に、著名人の話し声を自由に生成できるAI技術を公開した。音声波形ではなくスペクトログラムを解析することで、より高レベルな発声特性を再現できるという。
Venture Beatが11日報じたところによると、今回開発されたAIシステムはMelNetと呼ばれ、従来の音声波形をトレーニングデータとして利用するAIアルゴリズムに比べ、より自然な声の生成が可能になるとのこと。生成された音声サンプルとして、マイクロソスト創業者のビル・ゲイツ氏の声を再現したものが公開されているが、本人の話し声とAIによるものを聞き分けることは簡単ではない。
フェイクボイスによる技術の悪用が広く危惧される一方、テキストを本人の声として生成できる技術は、声帯・喉頭部などの疾患による失声を補うものともなり得る。失声に苦しむ多くの人々の助けとなるような、適正な技術応用を期待したい。