Facebook 人の声を生成するAI技術を公開

Photo by iStock

Facebookの研究チームは、TEDのスピーチ音声を元に、著名人の話し声を自由に生成できるAI技術を公開した。音声波形ではなくスペクトログラムを解析することで、より高レベルな発声特性を再現できるという。

Venture Beatが11日報じたところによると、今回開発されたAIシステムはMelNetと呼ばれ、従来の音声波形をトレーニングデータとして利用するAIアルゴリズムに比べ、より自然な声の生成が可能になるとのこと。生成された音声サンプルとして、マイクロソスト創業者のビル・ゲイツ氏の声を再現したものが公開されているが、本人の話し声とAIによるものを聞き分けることは簡単ではない。

フェイクボイスによる技術の悪用が広く危惧される一方、テキストを本人の声として生成できる技術は、声帯・喉頭部などの疾患による失声を補うものともなり得る。失声に苦しむ多くの人々の助けとなるような、適正な技術応用を期待したい。

前の記事中国 Shuidi chou – クラウドファンディングで高額医療費を援助する慈善事業
次の記事遺伝子発現データから薬剤性肝障害を正確に予測する深層学習モデル
TOKYO analytica
TOKYO analyticaは、データサイエンスと臨床医学への深い造詣を武器とし、健康に関するあらゆるモノ・コトのエビデンス構築・普及をお手伝いするメディカルコンサルティングプロジェクトです。
The Medical AI Timesにおける記事執筆は、循環器内科・心臓血管外科・救命救急科・小児科・泌尿器科などの現役医師およびライフサイエンス研究者らが中心となって行い、下記2名の医師が監修しています。

1. M.Okamoto MD, MPH, MSc
信州大学医学部卒(MD)、東京大学大学院専門職学位課程修了(MPH)、ロンドン大学ユニバーシティカレッジ(University College London)科学修士課程最優等修了(MSc with distinction)。専門はメディカルデータサイエンス。ロンドンでのベンチャーエンジニアを経て、英国内の大学で医療データベース研究に従事。

2. T.Sugino MD
防衛医科大学校卒(MD)。大学病院、米メリーランド州対テロ救助部隊を経て、現在は都内市中病院に勤務。専門は泌尿器科学、がん治療、バイオテロ傷病者の診断・治療、緩和ケアおよび訪問診療。泌尿器科専門医、日本体育協会認定スポーツドクター。