打破大模型的“空中城堡”,BMVC最佳论文Runner-Up得主谈多模态与具身学习( 二 )
提到得奖 , 高若涵讲到:“我是通过推特才知道我们得奖了 , 毕竟在虚拟会议中 , 大家没有足够的交流机会 。 ”
【打破大模型的“空中城堡”,BMVC最佳论文Runner-Up得主谈多模态与具身学习】得奖了都没注意到 , 那高博士他们在忙着研究什么呢?
2多模态:声音空间信息的利用
人类平时是通过左右耳一起感知声音的 , 如果仅是听单声道的声音 , 就无法感知一些空间信息 。
但在现实生活中 , 我们感受到的世界是3D立体的 。 比如 , 有一个人在说话 , 我们可以听出他是在我们的左边还是右边;有一辆车疾驰而过 , 我们也可以通过声音变化判断车的位置变化 。 “但是 , 我们平时看的很多视频中的声音都是单声道的 。 在这种情况下 , 我们感受不到立体空间 , 也就是丢失了一些空间信息 。 ”
在发表于CVPR2019的论文“2.5DVisualSound”中 , 高若涵及其团队将原始的单声道声音作为输入 , 然后分析视频中图像上的一些空间信息 , 将单声道的声音转化成双声道的声音 。 这项研究还获得了当年大会的最佳论文荣誉提名 。
文章图片
论文地址:https://arxiv.org/pdf/1812.04204.pdf
然而 , 在提取图片和视频中的空间信息时 , 他们采取的办法是把图片用ResNet-18提取出一个视觉特征向量(visualfeaturevector)来表示空间信息 , 然后指导从单声道到双声道的预测 。 “但是这个特征向量有一定局限性 , 它相当于是一个blackbox , 我们无从知晓它是如何提取空间信息的 。 ”
因此在BMVC2021上发表的这项获奖研究中 , 他们想更为直接地学习几何等空间上的信息 , 而不是单纯用一个空间向量从图片里直接提取 。 “我们根据三个想法设计了一个多任务框架 , 能够更好地学到一些空间特征 , 从而更好地做单声道到双声道的转化 。 ”
三个任务“通过一个多任务学习的框架 , 我们不但要去做从单声道到双声道的转换和预测 , 还要能够利用视觉特征向量预测房间的脉冲响应(roompulseresponse) 。 ”
文章图片
论文地址:https://vision.cs.utexas.edu/projects/geometry-aware-binaural/
高若涵解释道 , 脉冲响应相当于是一个房间的迁移函数 , 包含了空间中关于声源的信息 , 其中包括声源位置、3D环境信息、照相机和麦克风的位置等 。 如果特征向量能够很好地提取空间的信息 , 它就能够很好的预测房间的脉冲响应 。
脉冲响应只涉及一个损失函数 , 团队还提出了另外两个 。 一个和空间连贯性相关 , 可以让网络预测它最后生成的声音和视觉信息是否一致 。
此外 , 在一个视频中 , 每帧画面是有一定连续性的 , 相邻的每个视频帧之间在空间信息上的变化非常小 。 因此 , 团队就利用了这样的监督信息 , 提出了另一个和几何一致性相关的损失函数 , 更好地学习了空间向量 。
文章图片
模型框架图:为了从单声道音频生成准确的双声道音频 , 视觉效果提供了可以与音频预测共同学习的重要线索 。 本文提出的方法通过三个任务的设置 , 来学习提取空间信息(例如 , 吉他手在左侧)、声源位置随时间的几何一致性 , 以及来自周围房间推断的双耳脉冲响应的线索 。
数据集短缺
在人工智能研究项目中 , 数据短缺是常有的事情 , 特别是在探索新任务的时候 。 在BMVC2021的项目中 , 高若涵也遭遇了同样的难题 。 当然 , 这并不是第一次 。
- 副董事长|京东方A董秘回复:公司与全球数千家供应商保持着良好的合作关系
- 电池|vivoY55s,能有效解决你的续航焦虑!
- 加盟行业|原来加盟行业是这么玩的!
- 京东|适合过年送长辈的数码好物,好用不贵+大牌保障,最后一个太实用
- 儿童教育|首个播放量破 100 亿的 YouTube 视频诞生,竟然是儿歌
- 苹果|国内首款支持苹果HomeKit的智能门锁发布:iPhone一碰即开门
- 小米科技|预算只有两三千买这三款,颜值性能卓越,没有超高预算的用户看看
- 苹果|苹果最巅峰产品就是8,之后的产品,多少都有出现问题
- 普莉希拉|祖籍徐州的普莉希拉,嫁全球第5富豪扎克伯格,坐拥6530亿被说丑
- 攻克|打破日本垄断!售价7亿元的设备被中企攻克,已开始量产