具身|打破大模型的“空中城堡”，BMVC最佳论文Runner-Up得主谈多模态与具身学习( 三 ) 人脸识别|CXO|安博会|ai|aiot|碎片

在人工智能研究项目中，数据短缺是常有的事情，特别是在探索新任务的时候。在BMVC2021的项目中，高若涵也遭遇了同样的难题。当然，这并不是第一次。
在“2.5D Visual Sound”项目中，高若涵就发现：缺少双声道的视频，或者声音数据集很小，没办法训练出mono-to-binaural的模型。
最终他们决定自己收集一个数据集，并模仿具身学习自主组装了一个收集数据的仪器。

文章插图

“它有一个假人头，有像人耳朵形状的左耳和右耳，左右耳的间距大概也跟人类的间距差不多。它的耳朵里面还有麦克风，可以录声音，我们又在上面放了一个专业摄像机，模仿人的眼睛。然后，我们就邀请了一些志愿者到音乐室里面弹各种乐器，收集了一个数据集。”
团队利用了这个数据集训练出了模型，但还存在局限性，“收集这种数据集其实很难，我们最后也只收集了5个多小时的视频。”
在BMVC2021的项目中，此前收集的5个多小时的数据集已不足以支持继续研究。
“要解决数据集问题，要么我们就从现实生活自己收集，它的优点是很真实，但是这样收集成本很高。或者我们可以在一个虚拟模拟器上直接得到这样的数据集，但是可能会没有现实生活中那么真实。”
因此，高若涵和合作者们收集了一个虚拟数据集。“我们在一个虚拟环境里随意地放一些声源，还放了智能体，它在里面到处走动，然后进行搜集。我们录了一些视频下来，这样的数据大概能达到100多个小时，比之前的数据大了20多倍，这样就能够更好地帮助我们做算法的测试或者训练。”

多模态：声音语义信息的利用

“我们人不但能看还能听，如果看和听同时进行，那会让很多任务变得更加简单。”
上述研究中列举了高博士对声音空间信息的一些研究，而高博士的博士论文中除了研究声音的空间信息，还重点研究了声音的语义信息，探讨了如何同时利用声音和视觉更好地辅助学习视觉任务。那么如何理解声音的语义信息呢？

文章插图

“比如一个场景中能听到狗在叫，还有小提琴的声音，这些声音其实都能够与特定的物体或事件对应。”

关于声音的语义信息，高博士研究过的声源分离（audio-visual source separation），就是一个典型例子。

他分享了一个著名现象——McGurk Effect，大概意思是视觉能够影响声音的感知。视频中人物发音是一样的，但由于人的嘴唇运动方式不相同，我们在看视频时所感知到的声音竟然不一样。

这种效应有什么意义呢？高若涵解释到，“比如说在一个很嘈杂的环境里，我们的声音与其它声音有重叠，以至于听不到对方在说什么。那么怎么能把一个人的声音单独分离出来呢？或是在一个乐队演奏中，有人在弹钢琴，有人在拉小提琴，他们演奏出来的曲子是很多乐器声音的重叠结合，那么能不能把其中一种乐器的声音单独分离出来呢？”

高若涵表示，此前已有一些研究直接基于声音信息进行分离，但难度很大。“如果是在一个视频里面，我们就可以利用视觉信息，比如嘴唇的运动，帮助分离出声源。”
这种思路可以联系到认知科学里面的“鸡尾酒会效应”，“我们在参加一个鸡尾酒宴会的时候，环境可能会很嘈杂，但是我们的注意力会很容易集中在与你进行谈话的那个人身上。同样，如果两个人在谈话，他们的声音可能是混在一起的，但如果通过结合人脸的视觉信息，就可以更好地将声音分离出来。”