微软|3秒复制任何人的嗓音!微软音频版DALL·E细思极恐 连环境背景音也能模仿( 二 )


值得一提的是,VALL·E训练用的数据集不算特别大 。
相比OpenAI的Whisper用了68万小时的音频训练,在只用了7000多名演讲者、6万小时训练的情况下,VALL·E就在语音合成相似度上超过了经过预训练的语音合成模型YourTTS 。
而且,YourTTS在训练时,事先已经听过108个演讲者中的97人声音,但在实际测试中还是比不过VALL·E 。
微软|3秒复制任何人的嗓音!微软音频版DALL·E细思极恐 连环境背景音也能模仿
文章图片

有网友已经在畅想它可以应用的地方了:
不仅可以用在模仿自己的声音上,例如帮助残障人士和别人完成对话,也可以在自己不想说话时用它代替自己发语音 。
当然,还可以用在有声书的录制上 。
微软|3秒复制任何人的嗓音!微软音频版DALL·E细思极恐 连环境背景音也能模仿
文章图片

不过,VALL·E目前还没开源,要想试用可能还得再等等 。
微软|3秒复制任何人的嗓音!微软音频版DALL·E细思极恐 连环境背景音也能模仿
文章图片

作者介绍这篇论文所有作者均来自微软,其中有三位共同一作 。
微软|3秒复制任何人的嗓音!微软音频版DALL·E细思极恐 连环境背景音也能模仿
文章图片

一作Chengyi Wang,南开大学和微软亚研院联合培养博士生,研究兴趣是语音识别、语音翻译和语音预训练模型等 。
微软|3秒复制任何人的嗓音!微软音频版DALL·E细思极恐 连环境背景音也能模仿
文章图片

共同一作Sanyuan Chen,哈工大和微软亚研院联合培养博士生,研究方向包括自监督学习、NLP和语音处理等 。
微软|3秒复制任何人的嗓音!微软音频版DALL·E细思极恐 连环境背景音也能模仿
文章图片

共同一作Yu Wu,微软亚研院NLP小组研究员,在北航获得博士学位,研究方向是语音处理、聊天机器人系统和机器翻译等 。
微软|3秒复制任何人的嗓音!微软音频版DALL·E细思极恐 连环境背景音也能模仿
文章图片

感兴趣的小伙伴可以戳下方论文地址查看~
论文地址:https://arxiv.org/abs/2301.02111
音频试听地址:https://valle-demo.github.io/
参考链接:https://twitter.com/DrJimFan/status/1611397525541617665