脳卒中やその他の原因で発声・会話能力を失った患者に対し、ブレイン・コンピューター・インターフェース(BCI)技術を用いて「自然な発話の復元」を目指す研究が注目されている。米国カリフォルニア大学サンフランシスコ校およびバークレー校の共同研究チームは、脳に埋め込まれたデバイスからの信号を利用し、AIによって音声や顔の表情を合成し、デジタルアバターを介しての豊かなコミュニケーション再現に挑戦している。
Natureに発表された同研究では、重度の麻痺患者の脳表面に設置された電極から、発話を意図した際の信号を収集し、このデータを基として各個人特有の信号パターンを識別するディープラーニングモデルを構築した。信号からテキストへの変換速度は、1分間で約78単語に到達した。変換されたテキストは、被験者の顔の筋肉の動きをシミュレートした3Dアバターがアニメーション形式で表現し、コミュニケーションの再現性を大幅に向上させている。
注目すべきは、本研究におけるシステムの設計思想となる。単語全体を識別するのではなく、「音素」という音の基本要素を認識させ、これを基に単語を構築するアプローチを採用した。例として「HELLO」は「HH」「AH」「L」「OW」の4つの音素から成る。この方法により、システムは39種の音素の学習で済み、認識精度が向上するとともに、処理速度として3倍の高速化を実現した。研究責任者であるEdward Chang氏は、「我々の究極の目標は、他者とのコミュニケーションを最も自然な形で回復させることにある」と話している。
参照論文:
A high-performance neuroprosthesis for speech decoding and avatar control
参考動画:
How Artificial Intelligence Gave a Paralyzed Woman Her Voice Back
関連記事: