3 秒即可模拟任何人声音，微软发布最新语音模型，网友担忧：电信诈骗门槛或再被降？( 二 ) 整理|苏宓出品|CSDN（ID：CSDNn

值得注意的事， VALL-E具备语境学习能力，并可用于合成高质量的个性化语音。
以下是"SpeakerPrompt"的「生气」声音，这是指提供给VALL-E必须模仿的三秒钟音频。
以下是VALL-E模型输出「生气」语气的声音。
对比数据结果表明， VALL-E在语音自然度和说话人相似度方面明显优于最先进的TTS系统，并在合成中保留说话人的情感和声音提示的声学环境。
如何防范VALL-E可能带来的安全问题？
在应用维度上，微软的研究工程师们也做了一些设想，其推测VALL-E可用于高质量的文本转语音应用、语音编辑。当然，也可以与其他生成类的人工智能模型（如GPT-3）结合，可用于音频内容的创作。
不过，不怕技术本身带来的影响，就怕有心人会利用VALL-E这类先进的技术“作恶” ，上文中仅是通过示例的声音，我们几乎难辨究竟是真人说的话还是VALL-E说的话。
对此，不少网友的第一反应也是：电话诈骗的门槛又被降低了一步！
也正如一位网友分享道：
如果有人玩过"Uplink" ，这让我想起了黑客，你给系统管理员打电话，录下他们说"你好"的几句话，然后你的电脑根据这几句话构建语言，让他们说"你好，我是系统管理员。我的声音是唯一标识，可以进行安全验证。 "
我一直认为这是不可能的，你不可能用那么少的数据来完成这个任务。现在看来，我可能错了......
也许正是担忧VALL-E有可能会助长恶作剧和欺骗等行为的出现，当前微软没有对外开源VALL-E的代码。研究人员似乎也意识到了这项技术可能带来的潜在社会危害。因此在论文的结论一节中，他们写道：
“由于VALL-E可以合成说话者身份的语音，它可能会带来滥用模型的潜在风险，如欺骗语音识别或冒充特定说话者。为了减轻这种风险，有可能建立一个检测模型来判别一个音频片段是否是由VALL-E合成的。在进一步开发模型时，我们还将把微软AI原则付诸实践。 ”
更多细节技术内容详见论文地址：https://arxiv.org/pdf/2301.02111.pdf
参考链接：
https://www.rockpapershotgun.com/microsoft-unveil-vall-e-their-creepy-ai-that-can-mimic-voices#comments
https://valle-demo.github.io/
https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/
《2022-2023中国开发者大调查》重磅启动，欢迎扫描下方二维码，参与问卷调研，更有iPad等精美大礼等你拿！