具身|打破大模型的“空中城堡”,BMVC最佳论文Runner-Up得主谈多模态与具身学习( 三 )


在人工智能研究项目中,数据短缺是常有的事情,特别是在探索新任务的时候。在BMVC2021的项目中,高若涵也遭遇了同样的难题。当然,这并不是第一次。
在“2.5D Visual Sound”项目中,高若涵就发现:缺少双声道的视频,或者声音数据集很小,没办法训练出mono-to-binaural的模型。
最终他们决定自己收集一个数据集,并模仿具身学习自主组装了一个收集数据的仪器。

具身|打破大模型的“空中城堡”,BMVC最佳论文Runner-Up得主谈多模态与具身学习
文章插图
“它有一个假人头,有像人耳朵形状的左耳和右耳,左右耳的间距大概也跟人类的间距差不多。它的耳朵里面还有麦克风,可以录声音,我们又在上面放了一个专业摄像机 ,模仿人的眼睛。然后,我们就邀请了一些志愿者到音乐室里面弹各种乐器,收集了一个数据集。”
团队利用了这个数据集训练出了模型,但还存在局限性,“收集这种数据集其实很难,我们最后也只收集了5个多小时的视频。”
在BMVC2021的项目中,此前收集的5个多小时的数据集已不足以支持继续研究。
“要解决数据集问题,要么我们就从现实生活自己收集,它的优点是很真实,但是这样收集成本很高。或者我们可以在一个虚拟模拟器上直接得到这样的数据集,但是可能会没有现实生活中那么真实。”
因此,高若涵和合作者们收集了一个虚拟数据集。“我们在一个虚拟环境里随意地放一些声源,还放了智能体,它在里面到处走动,然后进行搜集。我们录了一些视频下来,这样的数据大概能达到100多个小时,比之前的数据大了20多倍,这样就能够更好地帮助我们做算法的测试或者训练。”
3

多模态:声音语义信息的利用
“我们人不但能看还能听,如果看和听同时进行,那会让很多任务变得更加简单。”
上述研究中列举了高博士对声音空间信息的一些研究,而高博士的博士论文中除了研究声音的空间信息,还重点研究了声音的语义信息,探讨了如何同时利用声音和视觉更好地辅助学习视觉任务。那么如何理解声音的语义信息呢?
具身|打破大模型的“空中城堡”,BMVC最佳论文Runner-Up得主谈多模态与具身学习
文章插图

“比如一个场景中能听到狗在叫,还有小提琴的声音,这些声音其实都能够与特定的物体或事件对应。”
关于声音的语义信息,高博士研究过的声源分离(audio-visual source separation),就是一个典型例子。
他分享了一个著名现象——McGurk Effect,大概意思是视觉能够影响声音的感知。视频中人物发音是一样的,但由于人的嘴唇运动方式不相同,我们在看视频时所感知到的声音竟然不一样。
这种效应有什么意义呢?高若涵解释到,“比如说在一个很嘈杂的环境里,我们的声音与其它声音有重叠,以至于听不到对方在说什么。那么怎么能把一个人的声音单独分离出来呢?或是在一个乐队演奏中,有人在弹钢琴,有人在拉小提琴,他们演奏出来的曲子是很多乐器声音的重叠结合,那么能不能把其中一种乐器的声音单独分离出来呢?”
高若涵表示,此前已有一些研究直接基于声音信息进行分离,但难度很大。“如果是在一个视频里面,我们就可以利用视觉信息,比如嘴唇的运动,帮助分离出声源。”
这种思路可以联系到认知科学里面的“鸡尾酒会效应”,“我们在参加一个鸡尾酒宴会的时候,环境可能会很嘈杂,但是我们的注意力会很容易集中在与你进行谈话的那个人身上。同样,如果两个人在谈话,他们的声音可能是混在一起的,但如果通过结合人脸的视觉信息,就可以更好地将声音分离出来。”