3 秒即可模拟任何人声音，微软发布最新语音模型，网友担忧：电信诈骗门槛或再被降？整理|苏宓出品|CSDN（ID：CSDNn

文章图片
整理|苏宓出品|CSDN（ID：CSDNnews）过去一年以来，随着StableDiffusion2.0模型的开源，以及ChatGPT聊天机器人的面世， AI在图像、文本方面取得了十足的进展。
近日，微软助力AI在语音领域再下一城，其最新推出了一款名为VALL-E的全新文本转语音人工智能模型，可以基于仅有3秒钟的语音样本，生成几近真实的人类声音！
只需3秒，就能模拟出任何声音
为了向外界公布这一则好消息，微软研究人员特别分享了一篇长达16页标题为《NeuralCodecLanguageModelsareZero-ShotTexttoSpeechSynthesizers》的论文（https://valle-demo.github.io/）进行了详述。

文章图片
让人称奇的是， VALL-E只需要对声音进行三秒钟的采样，就可以准确地模拟出该种声音的语音。
就像这样（某个人说话的声音）：
基于VALL-E ，合成了语音示例1：
示例2：【3 秒即可模拟任何人声音，微软发布最新语音模型，网友担忧：电信诈骗门槛或再被降？】简单来看，一旦VALL-E学会了某人特定的声音之后，那么就可以合成这个人说任何话的音频，而且还可以保留说话者的情绪基调和声学环境，这意味着文本到语音合成（TTS ， Text-to-Speech）技术的一次重大突破。
那么，微软是如何实现这么神奇的技术的？
VALL-E工作原理
根据官方介绍， VALL-E被称之为「神经编解码语言模型」，是从现成的神经音频编解码器模型中提取的离散代码训练而成。它被建立在一项名为EnCodec（https://github.com/facebookresearch/encodec）的技术之上。 EnCodec是Meta公司在2022年10月最新推出的基于深度学习的音频编解码器，是开源的，该技术支持单声道24kHz音频和立体声48kHz音频。

文章图片
Encodec技术
与其他常见的通过操纵波形合成语音的TTS方法不同，过去语音合成的方式可能主要是识别音素→旋律→波形的过程，而VALL-E则是通过音素→离散代码→波形这样的流程，存在一定的区别。
具体而言， VALL-E将TTS视为一个条件语言建模任务，根据音素和声码提示生成离散的音频编解码代码，对应于目标内容和说话人的声音。
在实现方式上，它基本上分析了一个人的声音，继而通过EnCodec将该信息分解成离散的组件（称为"令牌"），并使用训练数据来匹配它所"知道的"内容，进而生成该声音在三秒钟的样本之外说其他短语的声音。
正如微软在VALL-E论文中所说：
为了合成个性化的语音（例如， 0-shotTTS）， VALL-E以3秒钟的样本录音和音素提示的声学标记为条件，生成相应的声音内容，这些声学标记分别制约着说话人和内容信息。最后，生成的声音内容被用来与相应的神经编解码器合成最终波形。

文章图片
微软在一个由Meta组建的名为LibriLight的音频库上训练VALL-E的语音合成能力。它包含了来自7000多名演讲者的60,000小时的英语演讲内容，大部分来自LibriVox公共领域的有声读物。
在预训练阶段， VALL-E基于这些训练数据，微软官方称， “这比现有系统大数百倍” 。这也为VALL-E真实且精准地模仿人类语言提供了一定的基础。
微软在VALL-E示例网站（https://valle-demo.github.io/）上提供了数十个人工智能模型运作的音频例子。