Meta再放大招!VR新模型能像人一样“读”懂语音

Meta再放大招!VR新模型能像人一样“读”懂语音
文章图片
新智元报道
编辑:DavidJoey如
【新智元导读】畅游元宇宙 , 连音画不匹配那还算VR?Meta最近就盯上了这个问题 。 |人工智能企业在找落地场景?——智能技术企业科技信用评级共识体系发布会7月2日给你解答!
一提到AR、VR体验 , 声音体验都是最重要的一环 。
无论是在元宇宙的party上狂欢 , 还是戴着增强现实(AR)眼镜在客厅看家庭电影 , 声效对用户的沉浸式体验都至关重要 。
这不 , MetaAI与MetaRealityLab的音频专家联手 , 并与德克萨斯大学奥斯汀分校的研究人员合作 , 共同推出三个开源模型 , 用于对视频中人声和环境声的同步解析 。
「我们正尝试建立这样的MR与VR场景 , 我们相信人工智能将为每个沉浸式环境提供相匹配的音质」他们说 。
人体所处的物理环境不同 , 人耳所感知的声觉效果也不同 。
例如 , 音乐会在大型场地和客厅的声音有很大的不同 。 这是因为物理空间的几何形状、该区域的材料和表面 , 以及声音来自何处的接近度 , 都影响了我们听到音频的方式 。
因此 , 就需要AI模型来了解我们的环境信息 , 从而对声觉与视觉信息进行匹配 。
Meta的这项研究主要包括三个模型 , 分别是视觉声觉匹配模型(VisualAcousticMatchingmodel)、基于视觉的去混响模型(Visually-InformedDereverberation)、音视频分离模型(VisualVoice) 。
同时 , 这次研究成果还在CVPR2022论坛上发表5分钟演讲 , 这也就是TOP5含金量的论文才有这待遇 。
Meta再放大招!VR新模型能像人一样“读”懂语音
文章图片
首先 , 视觉声觉匹配模型可将视频中的音频转换为目标环境中的声觉效果 , 给定目标环境的图像和源音频的波形 , 模型就可以重新合成音频以匹配目标房间的声学 。
然后就是我们基于视觉的音频去混响模型(VIDA) , 它可根据观察到的声音和视觉场景来学习消除混响 。
而VisualVoice模型则可跨模型将视频中的音频与视频分离 。
Meta再放大招!VR新模型能像人一样“读”懂语音
文章图片
下面是这些模型的具体操作流程 。
视觉和声音的完美盛宴
Meta再放大招!VR新模型能像人一样“读”懂语音】众所周知 , 音频与场景不一致的视频 , 会十分损伤我们的感知 。
在过去 , 从不同的环境中获取音频和视频 , 并进行匹配 , 一直是一个挑战 。
声学仿真模型可用于生成房间脉冲响应 , 以重新创建房间的声学效果 , 但这只有在几何形状(通常以3D网格的形式)和空间的材料属性已知的情况下才能完成 。 不过 , 在大多数情况下 , 这些信息是无从获取的 。
当然 , 我们也可以仅根据在特定房间中捕获的音频来估计声学特性 , 但通过这种方式 , 只能获取十分有限的声学信息 , 而且通常不会产生很好的结果 。
Meta再放大招!VR新模型能像人一样“读”懂语音
文章图片
为了解决这些挑战 , 研究人员创建了一个自监督的视觉声学匹配模型 , 称为AViTAR 。
它可以调整音频 , 以匹配目标图像的空间 。 研究人员使用了一个跨模态Transformer模型 , 其中输入由图像和音频组成 , 允许Transformer执行跨模态推理 , 并生成与视觉输入匹配的真实音频输出 。
Meta再放大招!VR新模型能像人一样“读”懂语音
文章图片
自监督训练目标从外部网络视频中学习声学匹配 , 尽管它们缺乏声学不匹配的音频和未标记的数据 。