VALLE

微软的 VALL-E 可以从 3 秒样本中复制任何人的声音

微软最近推出了其最新的文本转语音人工智能模型 VALL-E,它几乎可以完美地复制一个人的声音。 该模型只需要三秒钟的音频样本即可进行训练。 一旦它学会了一种特定的声音,它就可以合成那个人说任何话的音频,同时保留说话者的情绪基调和环境。它是如何工作的?VALL-E 背后的技术是 EnCodec,Meta 于 2022 年 10 月推出了该技术。EnCodec 使 VALL-E 能够从文本和声音提示中生成离散的音频编解码器代码。 这不同于通常通过修改波形来合成语音的传统文本到语音系统。Meta 还构建了团队用来训练 VALL-E 的音频库 LibriLight。 该图书馆包含...