具身|打破大模型的“空中城堡”，BMVC最佳论文Runner-Up得主谈多模态与具身学习( 六 ) 人脸识别|CXO|安博会|ai|aiot|碎片

文章插图

在小猫出生后的前八周内，它们被放在一个黑暗环境里面喂养。每一天，心理学家都把两只小猫同时拿出来放在该装置上。其中一只小猫可以把四肢展开运动，它迈腿的时候这个“旋转木马”就会旋转。而另一只小猫则无法和这个装置互动，它被包裹在盒子里，无法展开四肢。
而第一只小猫有了动作使该装置旋转起来后，另一只小猫也必须跟着被动旋转。在这种设置下，它们得到了同样的视觉信息。但主动的小猫的动作可以使环境改变，它的动作能够和视觉信息相关联。而另一只被动的小猫虽然接收到同样的视觉信息，但它的动作与视觉没有关联。
八周后，他们发现主动的小猫的视觉感知能力与正常情况下长大的小猫是差不多的，但是被动的小猫就有一些根本性的视觉感知问题。
所以他们得到的结论是，我们需要自主运动，来养成获取视觉信息的能力，这样才能够帮助我们更好地学习。
“这与具身学习非常相关。我们在感知世界时，是与世界进行交互。我们可以通过移动，看到不同的东西，听到不同的东西，感知到不同的信息。而这与我们主动的运动相关联，从而可以使我们更好地学习。所以也是为什么说自监督和强化学习的结合更加接近具身学习范式，我们需要的是主动与环境进行交互。而互补的多模态信号可以作为很好的自监督学习的信号，帮助我们更有效率地学习。”
回到我们自己身上或者婴儿身上，一个婴儿从出生起，并不只是通过看一堆图片或视频学习的。“我们不是被动地学习世界，而是通过主动地看、听、触、嗅等获取各种模态信息进行学习。”
通过这样的观察，高若涵表示，他的长期研究目标是将来能够建立多模态感知智能体，它不但能够听、看、触碰，甚至还可以使用嗅觉、感知热量，像人一样能通过学习多模态信息，更好地辅助人类。

总结

高若涵表示，“提出一个问题比解决一个问题更重要。”我们在用“基础模型”解决问题的同时，是否应该提出这种模型存在的问题，并想办法突破“基础模型”的限制？
就像Jitendra Malik教授所说的那样，我们过度投资于当前的范式，而对智力领域中某些被忽视的部分存在的风险没有足够的警惕。“大型语言模型是有用的，像谷歌、脸书或微软这样的大型技术公司对其进行投资是很有意义的，但学术界应该奉行‘百花齐放’的策略。”
智能出现在智能体与环境的相互作用中，并且是感觉运动活动的结果。未来的监督学习应该采用来自现实的监督信息，自监督和强化学习的结合更加接近这种范式，多模态学习为这种范式提供了一个新的思路和方向。
谁又能知道下一个AlexNet时刻会在何时何地发生？
【具身|打破大模型的“空中城堡”，BMVC最佳论文Runner-Up得主谈多模态与具身学习】参考资料：https://crfm.stanford.edu/commentary/2021/10/18/malik.html

雷峰网雷峰网