微软|3秒复制任何人的嗓音！微软音频版DALL·E细思极恐连环境背景音也能模仿( 二 ) 人工智能|声音|3秒复制任何人

值得一提的是，VALL·E训练用的数据集不算特别大。
相比OpenAI的Whisper用了68万小时的音频训练，在只用了7000多名演讲者、6万小时训练的情况下，VALL·E就在语音合成相似度上超过了经过预训练的语音合成模型YourTTS 。
而且，YourTTS在训练时，事先已经听过108个演讲者中的97人声音，但在实际测试中还是比不过VALL·E 。

文章图片

有网友已经在畅想它可以应用的地方了：
不仅可以用在模仿自己的声音上，例如帮助残障人士和别人完成对话，也可以在自己不想说话时用它代替自己发语音。
当然，还可以用在有声书的录制上。

文章图片

不过，VALL·E目前还没开源，要想试用可能还得再等等。

文章图片

作者介绍这篇论文所有作者均来自微软，其中有三位共同一作。

文章图片

一作Chengyi Wang，南开大学和微软亚研院联合培养博士生，研究兴趣是语音识别、语音翻译和语音预训练模型等。

文章图片

共同一作Sanyuan Chen，哈工大和微软亚研院联合培养博士生，研究方向包括自监督学习、NLP和语音处理等。

文章图片

共同一作Yu Wu，微软亚研院NLP小组研究员，在北航获得博士学位，研究方向是语音处理、聊天机器人系统和机器翻译等。

文章图片

感兴趣的小伙伴可以戳下方论文地址查看~
论文地址：https://arxiv.org/abs/2301.02111
音频试听地址：https://valle-demo.github.io/
参考链接：https://twitter.com/DrJimFan/status/1611397525541617665

微软|3秒复制任何人的嗓音！微软音频版DALL&#183;E细思极恐 连环境背景音也能模仿( 二 )

微软|3秒复制任何人的嗓音！微软音频版DALL·E细思极恐连环境背景音也能模仿( 二 )