3 秒即可模拟任何人声音,微软发布最新语音模型,网友担忧:电信诈骗门槛或再被降?

3 秒即可模拟任何人声音,微软发布最新语音模型,网友担忧:电信诈骗门槛或再被降?
文章图片
整理|苏宓出品|CSDN(ID:CSDNnews)过去一年以来 , 随着StableDiffusion2.0模型的开源 , 以及ChatGPT聊天机器人的面世 , AI在图像、文本方面取得了十足的进展 。
近日 , 微软助力AI在语音领域再下一城 , 其最新推出了一款名为VALL-E的全新文本转语音人工智能模型 , 可以基于仅有3秒钟的语音样本 , 生成几近真实的人类声音!
只需3秒 , 就能模拟出任何声音
为了向外界公布这一则好消息 , 微软研究人员特别分享了一篇长达16页标题为《NeuralCodecLanguageModelsareZero-ShotTexttoSpeechSynthesizers》的论文(https://valle-demo.github.io/)进行了详述 。
3 秒即可模拟任何人声音,微软发布最新语音模型,网友担忧:电信诈骗门槛或再被降?
文章图片
让人称奇的是 , VALL-E只需要对声音进行三秒钟的采样 , 就可以准确地模拟出该种声音的语音 。
就像这样(某个人说话的声音):
基于VALL-E , 合成了语音示例1:
示例2:【3 秒即可模拟任何人声音,微软发布最新语音模型,网友担忧:电信诈骗门槛或再被降?】简单来看 , 一旦VALL-E学会了某人特定的声音之后 , 那么就可以合成这个人说任何话的音频 , 而且还可以保留说话者的情绪基调和声学环境 , 这意味着文本到语音合成(TTS , Text-to-Speech)技术的一次重大突破 。
那么 , 微软是如何实现这么神奇的技术的?
VALL-E工作原理
根据官方介绍 , VALL-E被称之为「神经编解码语言模型」 , 是从现成的神经音频编解码器模型中提取的离散代码训练而成 。 它被建立在一项名为EnCodec(https://github.com/facebookresearch/encodec)的技术之上 。 EnCodec是Meta公司在2022年10月最新推出的基于深度学习的音频编解码器 , 是开源的 , 该技术支持单声道24kHz音频和立体声48kHz音频 。
3 秒即可模拟任何人声音,微软发布最新语音模型,网友担忧:电信诈骗门槛或再被降?
文章图片
Encodec技术
与其他常见的通过操纵波形合成语音的TTS方法不同 , 过去语音合成的方式可能主要是识别音素→旋律→波形的过程 , 而VALL-E则是通过音素→离散代码→波形这样的流程 , 存在一定的区别 。
具体而言 , VALL-E将TTS视为一个条件语言建模任务 , 根据音素和声码提示生成离散的音频编解码代码 , 对应于目标内容和说话人的声音 。
在实现方式上 , 它基本上分析了一个人的声音 , 继而通过EnCodec将该信息分解成离散的组件(称为"令牌") , 并使用训练数据来匹配它所"知道的"内容 , 进而生成该声音在三秒钟的样本之外说其他短语的声音 。
正如微软在VALL-E论文中所说:
为了合成个性化的语音(例如 , 0-shotTTS) , VALL-E以3秒钟的样本录音和音素提示的声学标记为条件 , 生成相应的声音内容 , 这些声学标记分别制约着说话人和内容信息 。 最后 , 生成的声音内容被用来与相应的神经编解码器合成最终波形 。
3 秒即可模拟任何人声音,微软发布最新语音模型,网友担忧:电信诈骗门槛或再被降?
文章图片
微软在一个由Meta组建的名为LibriLight的音频库上训练VALL-E的语音合成能力 。 它包含了来自7000多名演讲者的60,000小时的英语演讲内容 , 大部分来自LibriVox公共领域的有声读物 。
在预训练阶段 , VALL-E基于这些训练数据 , 微软官方称 , “这比现有系统大数百倍” 。 这也为VALL-E真实且精准地模仿人类语言提供了一定的基础 。
微软在VALL-E示例网站(https://valle-demo.github.io/)上提供了数十个人工智能模型运作的音频例子 。