Meta再放大招!VR新模型能像人一样“读”懂语音( 二 )
研究人员使用两个数据集构建了这个任务 。 第一个数据集是建立在与SoundSpaces合作的基础上 , SoundSpaces是他们在2020年开放的AI视听平台 。
建立在AIHabitat之上 , SoundSpaces可以将来自「Replica」和「Matterport3D」数据集中的高保真、逼真的声源模拟 , 插入到各种真实世界中 。
第二个数据集由29万段公开的英语视频组成 , 这些视频剪辑的内容是人们进行的3到10秒讲话 。
对于这两个数据集 , 研究人员更专注室内环境下的语音 。 因为这些语音中的大部分可能与未来的很多场景用例相关 , 同时也因为人类对混响会如何影响语音有很强的先验知识 ,
文章图片
研究人员将「麦克风和摄像机需要放在一起 , 并且远离声源」作为筛选视频的标准 。 因为根据声源的位置以及人或麦克风所在的位置 , 听到的声音可能会有所不同 。
对于网络视频 , 研究人员必须克服的一个挑战是:他们只有与目标环境的声学相匹配的音频 。
因此引入「失配」的概念 , 即首先消除混响 。 再将音频与另一个环境的脉冲响应混合在一起以随机化音效 , 并添加噪音以创建具有相同内容但不同音效的音频 。
研究人员在两个数据集上验证了这个模型 , 并根据三个标准测量了生成音频的质量 , 包括它是否最接近真实音频、房间声学的正确性以及合成语音中保留的语音质量 。
同时 , 他们也想看看人类是如何评价该模型的表现 , 评估的标准是「音响效果是否与参考图像匹配」 。
结果表明 , 该模型成功地将人类语音转换为图像中描绘的各种真实世界场景 , 而且优于传统的纯音频声学匹配 。
对于视觉声学匹配 , 研究者们感兴趣的话题之一是重温过去的记忆 。 想象一下 , 如果能够戴上一副AR眼镜 , 记忆中经历过的场景就会悄然地浮现在眼前 。
比如拿起一件芭蕾舞裙 , 就能看到孩子芭蕾舞演出的全息图 。 音频消除了混响 , 听起来就像您在观众席的确切座位上所经历的那样 。
文章图片
真是妙不可言!
文章图片
利用视觉信息 , 去除混响
下一个问题是 , 去混响 。
尽管有些场景下 , 增加一些混响音效有助于让声音和视觉信息更加匹配 , 但在语音识别领域 , 更常见的做法是去混响 。
混响会在环境中的表面和物体间反射 , 这种反射的后果反映在人的耳朵里 , 就是音质降低 , 而且会严重影响自动语音识别的精度 。
文章图片
通过去混响 , 可以尽量剥离环境影响 , 使语音更容易被识别和增强 , 比如 , 为有听力障碍的人生成更准确的字幕 , 就需要对音源进行去混响处理 。
过去的去混响方法往往根据音频模式进行 , 这种方法并不能了解环境的完整声学特征 。 更多靠的是人类语音的先验知识 , 而没有考虑到周围的环境 。
为了让这一过程与周围环境结合 , 需要融入更多的维度的信息 , 比如视觉信息 。
文章图片
结合了视觉信息的去混响模型称为「VIDA」 , 根据观察到的声音和视觉流来学习去混响 , 这些视觉信息包括房间的几何形状、材料和音源位置等 , 这些都会影响在音频流中体现的混响效果 。
- 旅游|占领三亚的不再是东北人而是上海人!“摘星”后上海现报复性旅游 三亚机场排队
- 本文转自:新华日报交汇点讯 支持龙头企业、新研机构牵头组建创新联合体;全年推动实施130...|补气输血!“十项行动”助力“南京智造”再跃升
- ai|路透:扎克伯格警告Meta营收放缓,并收缩招聘计划
- 纳米|三星全球最先量产GAA3纳米…超差技术再次领先
- 今天一大早|雷军再次为新品预热:小米12s首发自研小芯片
- 高通骁龙|目前还能“再战三年”的骁龙870手机就这3款,优缺点相当明显!
- 中芯国际|中芯正式官宣!核心技术人员再离任,国人:应该返聘,发挥余热
- 电池|2022年6月份,最为超值的4款12G+256G手机,“再战五年”不在话下
- 戴尔|戴尔游匣G系列新成员真机曝光:外形凌厉 性能或再升级
- meta|Meta工程师招聘削减至少30% 扎克伯格:为美国经济衰退做好准备