打破大模型的“空中城堡”，BMVC最佳论文Runner-Up得主谈多模态与具身学习两只新生猫的运动方式是否为

文章图片
两只新生猫的运动方式是否为主动，对视觉感知能力的影响非常大。这启发了人工智能中的具身学习范式，其中最关键的要素便是——主动。
作者丨王晔
编辑丨青暮
UC伯克利教授JitendraMalik前段时间发文表示，虽然以大型语言模型（LLMs）为例的“基础模型”在机器翻译和语音识别等方面非常有用，但将这些模型称为"基础模型" ，不禁让人怀疑这些模型是不是真的可以成为人工智能研究的基础。
并且，这种强烈的主张还有可能会被理解为：这些LLMs为所有的AI研究提供了一个模板。
JitendraMalik教授认为，人工智能不一定要一味地模仿人类婴儿的发展过程，但是感知、互动、在4D世界中运动、获得常识性物理学模型、心智理论以及学习人类世界的语言显然已成为人工智能的重要组成部分。
他将这种缺乏感觉运动基础的、并且仅在“狭隘”的AI环境中展示了有效性的大型语言模型称作“空中城堡” 。 “它们是非常有用的城堡，但它们缺乏坚实的基础，仍然漂浮在空中，不太可能会创造出‘通用’的人工智能。 ”
类似的对“空中城堡”的批判不在少数，但很少有人通过行动来验证自己的观点。
就在不久前， BMVC最佳论文奖揭晓，由RishabhGarg、高若涵和KristenGrauman共同发表的论文“Geometry-AwareMulti-TaskLearningforBinauralAudioGenerationfromVideo”获得了BestPaperAwardRunner-Up 。而该项研究，让我们再一次注意到了打破“空中城堡”的具体行动。
该论文一作为RishabhGarg ，由高若涵博士以及KristenGrauman教授共同指导。
AI科技评论有幸联系到了高若涵博士，就获奖论文以及他在打破“空中城堡”上的努力和展望进行了交流。
1迈入多模态学习之路

文章图片
高若涵博士于2021年1月获得德克萨斯大学奥斯汀分校计算机科学系博士学位，师从KristenGrauman教授。目前，他在由李飞飞教授，吴佳俊教授， SilvioSavarese教授领导的斯坦福大学视觉和学习实验室（SVL）担任博士后研究员。
进入德克萨斯大学后，高若涵首先接触了视觉信息处理的研究，后来又对声音信息处理感兴趣。在当时，该领域的模型普遍使用标记式的监督学习，这一点吸引了他的注意。
“这种人工标记方式存在多种局限性。首先，规模化使用需要极大的人力物力来进行标记；其次，由于是人为标记的，因此可能会带有主观性错误，这样获取的信息不够真实。 ”
所以，高若涵在那个时候就开始对自监督学习很感兴趣，一个想法在他脑海中浮现：AI能不能人类一样，主动地利用自己获取的数据的监督信息作为监督信号进行学习，而不是通过人工标记来学习？

文章图片
高若涵注意到一个细节， “我当时在网上看视频的时候，有一个地方吸引了我的注意。在一个没有标记的视频里面，我们不但能够看到一帧一帧的图片，还能够听声音。如果我们在看视频时听到了狗叫声，那大概也能够预测出这个视频的图像里面有一只狗，它可能在某一帧叫了一声，所以我们才能听到它，声音和画面是存在对应关系的。在一个没有任何标记的视频里面，声音和图片的对应性相当于是一个免费的监督信息， AI可以利用这些信息学习一些有用的特征。 ”
此后，高若涵对声音信息处理、多模态学习等课题进行了深入研究，在博士期间主要研究了声音的空间信息和语义信息。