具身|打破大模型的“空中城堡”,BMVC最佳论文Runner-Up得主谈多模态与具身学习( 二 )

此后,高若涵对声音信息处理、多模态学习等课题进行了深入研究,在博士期间主要研究了声音的空间信息和语义信息。
提到得奖,高若涵讲到:“我是通过推特才知道我们得奖了,毕竟在虚拟会议中,大家没有足够的交流机会。”
得奖了都没注意到,那高博士他们在忙着研究什么呢?

2

多模态:声音空间信息的利用
人类平时是通过左右耳一起感知声音的,如果仅是听单声道的声音,就无法感知一些空间信息。
但在现实生活中,我们感受到的世界是3D立体的。比如,有一个人在说话,我们可以听出他是在我们的左边还是右边;有一辆车疾驰而过,我们也可以通过声音变化判断车的位置变化。“但是,我们平时看的很多视频中的声音都是单声道的。在这种情况下,我们感受不到立体空间,也就是丢失了一些空间信息。”
在发表于CVPR2019的论文“2.5D Visual Sound”中,高若涵及其团队将原始的单声道声音作为输入,然后分析视频中图像上的一些空间信息,将单声道的声音转化成双声道的声音。这项研究还获得了当年大会的最佳论文荣誉提名。
具身|打破大模型的“空中城堡”,BMVC最佳论文Runner-Up得主谈多模态与具身学习
文章插图

论文地址:https://arxiv.org/pdf/1812.04204.pdf
然而,在提取图片和视频中的空间信息时,他们采取的办法是把图片用ResNet-18提取出一个视觉特征向量(visual feature vector)来表示空间信息,然后指导从单声道到双声道的预测。“但是这个特征向量有一定局限性,它相当于是一个black box,我们无从知晓它是如何提取空间信息的。”
因此在BMVC2021上发表的这项获奖研究中,他们想更为直接地学习几何等空间上的信息,而不是单纯用一个空间向量从图片里直接提取。“我们根据三个想法设计了一个多任务框架,能够更好地学到一些空间特征,从而更好地做单声道到双声道的转化。”
三个任务
“通过一个多任务学习的框架,我们不但要去做从单声道到双声道的转换和预测,还要能够利用视觉特征向量预测房间的脉冲响应(room pulse response)。”
具身|打破大模型的“空中城堡”,BMVC最佳论文Runner-Up得主谈多模态与具身学习
文章插图

论文地址:https://vision.cs.utexas.edu/projects/geometry-aware-binaural/
高若涵解释道,脉冲响应相当于是一个房间的迁移函数,包含了空间中关于声源的信息,其中包括声源位置、3D环境信息、照相机和麦克风的位置等。如果特征向量能够很好地提取空间的信息,它就能够很好的预测房间的脉冲响应。
脉冲响应只涉及一个损失函数,团队还提出了另外两个。一个和空间连贯性相关,可以让网络预测它最后生成的声音和视觉信息是否一致。
此外,在一个视频中,每帧画面是有一定连续性的,相邻的每个视频帧之间在空间信息上的变化非常小。因此,团队就利用了这样的监督信息,提出了另一个和几何一致性相关的损失函数,更好地学习了空间向量。
具身|打破大模型的“空中城堡”,BMVC最佳论文Runner-Up得主谈多模态与具身学习
文章插图

模型框架图:为了从单声道音频生成准确的双声道音频,视觉效果提供了可以与音频预测共同学习的重要线索。本文提出的方法通过三个任务的设置,来学习提取空间信息(例如,吉他手在左侧)、声源位置随时间的几何一致性,以及来自周围房间推断的双耳脉冲响应的线索。
数据集短缺