具身|打破大模型的“空中城堡”，BMVC最佳论文Runner-Up得主谈多模态与具身学习( 五 ) 人脸识别|CXO|安博会|ai|aiot|碎片

文章插图

图注：真实世界扫描环境中的回声定位模拟。在训练期间，智能体会前往用黄点标记的密集采样位置。智能体主动发出 3 ms 全向扫描信号以获取房间的回声响应。
“除了听和看我们还可以触碰，触觉其实也是一种模态，同时也是具身学习的重要方面，很多时候我们都是通过触碰东西来感知世界的。”
因此，高若涵在最新的一篇文章“ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and Tactile Representations”中，除了研究视觉、听觉，还延展到了另一种感官知觉——触觉。

文章插图

论文链接：https://arxiv.org/pdf/2109.07991.pdf
高博士用盘子举了一个例子。从视觉上来讲，如果桌子上放了一个盘子，我们可以从各个方向来看它，受盘子形状、光源等影响，我们从各个方向看到的图像是不一样的。从听觉上来讲，如果桌子上有盘子，我们用小棒去敲打它，受材质、形状、大小等影响，我们听到的声音也是不同的。从触觉感知这个盘子，盘子的不同位置的形状不一样，我们用手指触碰的时候每个地方得到的感觉也是不一样的。因此，高若涵所在团队就想要建立一个基于三种感官知觉的数据集。

文章插图

“之前其实有一些这样的3D物品数据集，但主要是与物体的形状有关，不涉及触觉、听觉信息，所以不够真实。在机器人领域也有类似数据集，只是规模很小。”
总而言之，要使用这种数据集需要考虑版本、成本等各种因素。因此，高若涵团队建立了一个有100个用神经网络隐式表示的物体的数据集。
“我们把这100个物体以一种多模态的方式进行表示。对于每一个物体，通过视觉观察获得图像，通过敲打等方式获得声音信息，通过触摸某一个点获得触觉信息。这个数据集可以帮助进行多模态学习的研究，并且应用在具身学习的研究中。”
在上述讨论中，高若涵重点分享了通过一系列基于多模态交互来改进感知效果的研究，包括声音的空间信息和语义信息理解，触觉信息的利用，并将具身学习融入到研究过程中，让智能体通过交互来获取数据，并同步地进行学习。这些进展都在反反复复强调：人并不是被动的感知外界的刺激，而是身体的多模态感知经验和外界刺激的交互以促进我们对概念的理解，要训练出更好的模型亦是如此。
以上成果都凝聚在高若涵的博士论文中，该论文后来还获得了2021 年 Michael H. Granof 大学最佳论文奖。该奖项由德克萨斯大学奥斯汀分校设立于 1979 年，旨在表彰出色的研究以及鼓励最高的研究、写作、学术水平。

文章插图

论文地址：https://repositories.lib.utexas.edu/handle/2152/86943

多模态互补打破“空中城堡”

回到文章开头的问题，对于Jitendra Malik教授的观点，高若涵表示，“我的理解是，智能体不单是能够被动地感知这个世界，它需要自主运动，要和环境进行交互，才能更好地学习，这应该是未来智能体学习的一个发展方向。”问及该思想的科学依据或启发来源，高博士分享了一个实验：
1963年，心理学家Richard Held(1922-2016)和Alan Hein在“Movement-produced stimulation in the development of visually guided behavior”这项研究中进行了一个小猫“旋转木马”的实验，了解小猫是如何进行视觉学习的。于是，他们就设计了一个类似于旋转木马的装置，把两个小猫放在该装置的两边。