Meta再放大招!VR新模型能像人一样“读”懂语音( 三 )
有了这个思路 , 我们想从一个特定的地方获取混响的音频 , 并抽离房间的声效 。
研究人员开发了一个大规模的训练数据集 , 使用真实的语音进行渲染 。
文章图片
通过虚拟和真实的图像上的演示表明 , 在语音增强、语音识别和说话人识别等任务上 , VIDA实现了SOTA性能 , 比传统的纯音频方法有了很大的提升 。 这对AR和VR应用中建立现实体验是非常重要的 。
VisualVoice:通过看和听 , 理解语音
在复杂环境下 , 人类比AI更能理解语音的含义 , 因为我们不仅使用耳朵 , 还使用眼睛 。
例如 , 我们看到某人的嘴在动 , 可能凭直觉就知道我们听到的声音一定是来自这个人 。
MetaAI正在研究新的AI对话系统 , 就是要让AI也学会这种本事 , 识别在对话中看到的和听到的东西之间的细微关联 。
VisualVoice的学习方式类似于人类学习掌握新技能的方式 , 通过从未标记的视频中学习视觉和听觉线索 , 实现视听语音分离 。
对于机器来说 , 这创造了更好的感知 , 同时人类的感知力也会得到改善 。
想象一下 , 能够与来自世界各地的同事一起参加元宇宙中的小组会议 , 随着他们在虚拟空间中的移动 , 加入更小的小组会议 , 期间 , 场景中的声音混响和音色会根据环境做出相应调整 。
文章图片
的确 , 现在的AI模型在视频和图像理解方面做得很好 。
但要让用户有「很哇塞」声如其境的体验 , 我们需要「多模式的AI模型」 。
也就是可同时获取音频、视频和文本信息 , 并更具有丰富的环境理解的模型 。
目前AViTAR和VIDA目前仅支持单个图像,离推向市场还存在距离 。
「未来我们希望尝试使用视频和其他动态来捕捉空间的声学特性 。 这将帮助我们更接近我们的目标 , 即创建了解现实世界环境以及人们如何体验它们的多模式AI」 。
相关论文地址:
https://vision.cs.utexas.edu/projects/visual-acoustic-matching/
https://vision.cs.utexas.edu/projects/learning-audio-visual-dereverberation/
https://vision.cs.utexas.edu/projects/VisualVoice/
参考资料:
https://ai.facebook.com/blog/ai-driven-acoustic-synthesis-for-augmented-and-virtual-reality-experiences/
https://siliconangle.com/2022/06/24/meta-building-better-ai-driven-audio-virtual-reality/
- 旅游|占领三亚的不再是东北人而是上海人!“摘星”后上海现报复性旅游 三亚机场排队
- 本文转自:新华日报交汇点讯 支持龙头企业、新研机构牵头组建创新联合体;全年推动实施130...|补气输血!“十项行动”助力“南京智造”再跃升
- ai|路透:扎克伯格警告Meta营收放缓,并收缩招聘计划
- 纳米|三星全球最先量产GAA3纳米…超差技术再次领先
- 今天一大早|雷军再次为新品预热:小米12s首发自研小芯片
- 高通骁龙|目前还能“再战三年”的骁龙870手机就这3款,优缺点相当明显!
- 中芯国际|中芯正式官宣!核心技术人员再离任,国人:应该返聘,发挥余热
- 电池|2022年6月份,最为超值的4款12G+256G手机,“再战五年”不在话下
- 戴尔|戴尔游匣G系列新成员真机曝光:外形凌厉 性能或再升级
- meta|Meta工程师招聘削减至少30% 扎克伯格:为美国经济衰退做好准备