Meta再放大招！VR新模型能像人一样“读”懂语音( 二 ) 新智元报道编辑：DavidJoey如【

研究人员使用两个数据集构建了这个任务。第一个数据集是建立在与SoundSpaces合作的基础上， SoundSpaces是他们在2020年开放的AI视听平台。
建立在AIHabitat之上， SoundSpaces可以将来自「Replica」和「Matterport3D」数据集中的高保真、逼真的声源模拟，插入到各种真实世界中。
第二个数据集由29万段公开的英语视频组成，这些视频剪辑的内容是人们进行的3到10秒讲话。
对于这两个数据集，研究人员更专注室内环境下的语音。因为这些语音中的大部分可能与未来的很多场景用例相关，同时也因为人类对混响会如何影响语音有很强的先验知识，

文章图片
研究人员将「麦克风和摄像机需要放在一起，并且远离声源」作为筛选视频的标准。因为根据声源的位置以及人或麦克风所在的位置，听到的声音可能会有所不同。
对于网络视频，研究人员必须克服的一个挑战是：他们只有与目标环境的声学相匹配的音频。
因此引入「失配」的概念，即首先消除混响。再将音频与另一个环境的脉冲响应混合在一起以随机化音效，并添加噪音以创建具有相同内容但不同音效的音频。
研究人员在两个数据集上验证了这个模型，并根据三个标准测量了生成音频的质量，包括它是否最接近真实音频、房间声学的正确性以及合成语音中保留的语音质量。
同时，他们也想看看人类是如何评价该模型的表现，评估的标准是「音响效果是否与参考图像匹配」。
结果表明，该模型成功地将人类语音转换为图像中描绘的各种真实世界场景，而且优于传统的纯音频声学匹配。
对于视觉声学匹配，研究者们感兴趣的话题之一是重温过去的记忆。想象一下，如果能够戴上一副AR眼镜，记忆中经历过的场景就会悄然地浮现在眼前。
比如拿起一件芭蕾舞裙，就能看到孩子芭蕾舞演出的全息图。音频消除了混响，听起来就像您在观众席的确切座位上所经历的那样。

文章图片
真是妙不可言！

文章图片
利用视觉信息，去除混响
下一个问题是，去混响。
尽管有些场景下，增加一些混响音效有助于让声音和视觉信息更加匹配，但在语音识别领域，更常见的做法是去混响。
混响会在环境中的表面和物体间反射，这种反射的后果反映在人的耳朵里，就是音质降低，而且会严重影响自动语音识别的精度。

文章图片
通过去混响，可以尽量剥离环境影响，使语音更容易被识别和增强，比如，为有听力障碍的人生成更准确的字幕，就需要对音源进行去混响处理。
过去的去混响方法往往根据音频模式进行，这种方法并不能了解环境的完整声学特征。更多靠的是人类语音的先验知识，而没有考虑到周围的环境。
为了让这一过程与周围环境结合，需要融入更多的维度的信息，比如视觉信息。

文章图片
结合了视觉信息的去混响模型称为「VIDA」，根据观察到的声音和视觉流来学习去混响，这些视觉信息包括房间的几何形状、材料和音源位置等，这些都会影响在音频流中体现的混响效果。