3 秒即可模拟任何人声音,微软发布最新语音模型,网友担忧:电信诈骗门槛或再被降?( 二 )
值得注意的事 , VALL-E具备语境学习能力 , 并可用于合成高质量的个性化语音 。
以下是"SpeakerPrompt"的「生气」声音 , 这是指提供给VALL-E必须模仿的三秒钟音频 。
以下是VALL-E模型输出「生气」语气的声音 。
对比数据结果表明 , VALL-E在语音自然度和说话人相似度方面明显优于最先进的TTS系统 , 并在合成中保留说话人的情感和声音提示的声学环境 。
如何防范VALL-E可能带来的安全问题?
在应用维度上 , 微软的研究工程师们也做了一些设想 , 其推测VALL-E可用于高质量的文本转语音应用、语音编辑 。 当然 , 也可以与其他生成类的人工智能模型(如GPT-3)结合 , 可用于音频内容的创作 。
不过 , 不怕技术本身带来的影响 , 就怕有心人会利用VALL-E这类先进的技术“作恶” , 上文中仅是通过示例的声音 , 我们几乎难辨究竟是真人说的话还是VALL-E说的话 。
对此 , 不少网友的第一反应也是:电话诈骗的门槛又被降低了一步!
也正如一位网友分享道:
如果有人玩过"Uplink" , 这让我想起了黑客 , 你给系统管理员打电话 , 录下他们说"你好"的几句话 , 然后你的电脑根据这几句话构建语言 , 让他们说"你好 , 我是系统管理员 。 我的声音是唯一标识 , 可以进行安全验证 。 "
我一直认为这是不可能的 , 你不可能用那么少的数据来完成这个任务 。 现在看来 , 我可能错了......
也许正是担忧VALL-E有可能会助长恶作剧和欺骗等行为的出现 , 当前微软没有对外开源VALL-E的代码 。 研究人员似乎也意识到了这项技术可能带来的潜在社会危害 。 因此在论文的结论一节中 , 他们写道:
“由于VALL-E可以合成说话者身份的语音 , 它可能会带来滥用模型的潜在风险 , 如欺骗语音识别或冒充特定说话者 。 为了减轻这种风险 , 有可能建立一个检测模型来判别一个音频片段是否是由VALL-E合成的 。 在进一步开发模型时 , 我们还将把微软AI原则付诸实践 。 ”
更多细节技术内容详见论文地址:https://arxiv.org/pdf/2301.02111.pdf
参考链接:
https://www.rockpapershotgun.com/microsoft-unveil-vall-e-their-creepy-ai-that-can-mimic-voices#comments
https://valle-demo.github.io/
https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/
《2022-2023中国开发者大调查》重磅启动 , 欢迎扫描下方二维码 , 参与问卷调研 , 更有iPad等精美大礼等你拿!
- |真我240W满级秒充实测!功率直飙224W,realme黑科技惊艳四座
- 使用电脑的朋友们|键盘loser-capslock键秒变王者!
- 李子柒|李子柒一碗牛肉面出圈,丁真7秒成顶流,2023年的流量密码是什么?
- |都憋不住啦!上周发射台全面测试后,马斯克说2月底星舰即可起飞
- it芯片|240W满级秒冲!真我GT Neo5将至:顶配16GB+1TB
- ssd|苹果看呆?20W的12倍,真我240W满级秒充为难手机充电协议
- realme|手机快充2023年卷到头了!真我全球首发240W秒充
- ChatGPT「克星」来了!文章作者是人是AI几秒检出,服务器已挤爆
- 在地球上,用手电筒朝着天空照射1秒,这束光能飞到宇宙边缘吗?
- 小米科技|首销15秒破亿,iQOO 11卖“火”了,手上的小米13不香了