VALLE

科技新闻

微软的 VALL-E 可以从 3 秒样本中复制任何人的声音

微软最近推出了其最新的文本转语音人工智能模型 VALL-E，它几乎可以完美地复制一个人的声音。该模型只需要三秒钟的音频样本即可进行训练。一旦它学会了一种特定的声音，它就可以合成那个人说任何话的音频，同时保留说话者的情绪基调和环境。它是如何工作的？VALL-E 背后的技术是 EnCodec，Meta 于 2022 年 10 月推出了该技术。EnCodec 使 VALL-E 能够从文本和声音提示中生成离散的音频编解码器代码。这不同于通常通过修改波形来合成语音的传统文本到语音系统。Meta 还构建了团队用来训练 VALL-E 的音频库 LibriLight。该图书馆包含...

您现在可以在 Android 上锁定 Chrome 隐身标签页。把它带到电脑上！

2023 年最佳超便携笔记本电脑：最佳整体、最佳电池寿命等

2023中国互联网十大预测

流媒体大战哪家强？

iQOO 11系列性能测试：大杯更有性价比？