Meta再放大招!VR新模型能像人一样“读”懂语音( 三 )


有了这个思路 , 我们想从一个特定的地方获取混响的音频 , 并抽离房间的声效 。
研究人员开发了一个大规模的训练数据集 , 使用真实的语音进行渲染 。
Meta再放大招!VR新模型能像人一样“读”懂语音
文章图片
通过虚拟和真实的图像上的演示表明 , 在语音增强、语音识别和说话人识别等任务上 , VIDA实现了SOTA性能 , 比传统的纯音频方法有了很大的提升 。 这对AR和VR应用中建立现实体验是非常重要的 。
VisualVoice:通过看和听 , 理解语音
在复杂环境下 , 人类比AI更能理解语音的含义 , 因为我们不仅使用耳朵 , 还使用眼睛 。
例如 , 我们看到某人的嘴在动 , 可能凭直觉就知道我们听到的声音一定是来自这个人 。
MetaAI正在研究新的AI对话系统 , 就是要让AI也学会这种本事 , 识别在对话中看到的和听到的东西之间的细微关联 。
VisualVoice的学习方式类似于人类学习掌握新技能的方式 , 通过从未标记的视频中学习视觉和听觉线索 , 实现视听语音分离 。
对于机器来说 , 这创造了更好的感知 , 同时人类的感知力也会得到改善 。
想象一下 , 能够与来自世界各地的同事一起参加元宇宙中的小组会议 , 随着他们在虚拟空间中的移动 , 加入更小的小组会议 , 期间 , 场景中的声音混响和音色会根据环境做出相应调整 。
Meta再放大招!VR新模型能像人一样“读”懂语音
文章图片
的确 , 现在的AI模型在视频和图像理解方面做得很好 。
但要让用户有「很哇塞」声如其境的体验 , 我们需要「多模式的AI模型」 。
也就是可同时获取音频、视频和文本信息 , 并更具有丰富的环境理解的模型 。
目前AViTAR和VIDA目前仅支持单个图像,离推向市场还存在距离 。
「未来我们希望尝试使用视频和其他动态来捕捉空间的声学特性 。 这将帮助我们更接近我们的目标 , 即创建了解现实世界环境以及人们如何体验它们的多模式AI」 。
相关论文地址:
https://vision.cs.utexas.edu/projects/visual-acoustic-matching/
https://vision.cs.utexas.edu/projects/learning-audio-visual-dereverberation/
https://vision.cs.utexas.edu/projects/VisualVoice/
参考资料:
https://ai.facebook.com/blog/ai-driven-acoustic-synthesis-for-augmented-and-virtual-reality-experiences/
https://siliconangle.com/2022/06/24/meta-building-better-ai-driven-audio-virtual-reality/