物体|斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」( 七 )

「在工厂或仓库中，机器人每天遇到的物体、物体位置与物体类别高度相似，在这类场景下，机器人的感知与规划已经达到非常成熟的状态。很多工厂的流水线上都安置了自动化机器人。但如果你仔细观察，这些机器人大多是没有『视觉』的，它们只是在记忆特定的动作，然后重复同样的动作，所以它们不能照搬到一个新的环境。」
因此，宋舒然认为，如何让机器人去适应非结构化的环境，是机器人视觉接下来的关键研究方向。在她的研究中，无论是从对人的观察中学习机器人的进化经验，还是强调机器人与现实世界的交互，都是在为这个方向努力。
比如，在FlingBot中，为什么会用「扔」的动作去展开物体呢？宋舒然解释：「如果物体被展开，是更容易被识别的。如果衣物揉成一团，不展开的话你根本不知道是T恤还是裤子。」从这个角度来看，机器人与物理世界的交互也有利于提升感知的准确性。
换言之，在视觉与机器人的联姻中，不仅是视觉帮助机器人感知，反过来，机器人的动作也会增加视觉的感知。

6、探讨「通用人工智能」
AI科技评论：Yann LeCun 之前一直强调自监督学习是下一代人工智能的重要方向，老师您怎么看？
宋舒然：我非常同意。我觉得的确是的。现在我们已经在监督学习上取得了很多的进展，包括ImageNet和现有的许多Benchmark（基准），下一步如果我们想用上更大的数据集，其实很难再标注更多的数据了。我们需要的是在算法上的提高，就是如何去利用这些没有标注的数据。
在这个方向上，不同的领域有不同的定义方法。如何去定义自监督学习？我觉得这是最核心的问题。在计算机视觉领域，你可以做视频预测；在自然语言处理方向，你可以做语言计算。我一直在想的是，在机器人领域，如何定义自监督学习？如何去定义一个统一框架可以去做自主自监督学习？
AI科技评论：而且之前很多人在强调这个方向的时候，好像都没有提到跟现实的交互。
宋舒然：对的，因为它的成本的确比较高。如果你没有机器人，你需要买一个机器人。而且就算是有机器人，通过交互去收集数据，感觉上是要比标注数据慢很多的。但这并不代表它没有前景；相反，我觉得这是一个更有潜力的方向。雷峰网
尤其是，如果你考虑未来的人工智能发展，当机器人不再是一个昂贵的设备，当机器人的标价降低、遍布各地，并且可以执行很多任务时，我觉得通过交互的自监督学习会变成更主流的方法。
AI科技评论：明白。老师您可否再总结一下，这种交互加自监督学习的学习方式，过去的发展、当前存在的瓶颈和未来趋势是什么？
宋舒然：目前「自监督+交互」的方式里仍然掺杂了许多人为经验。我们现在的许多工作，比如我们可以用自监督的方式做「抓取」，原因是我们可以很好地计算这个物体是不是被抓起来了。对于「展开」这个动作也是一样的。我们可以通过物体的表面、面积有没有展开作为一个监督的信息。但是这些奖励虽然是自监督，可以直接从图像里计算，但它也是由人来定义的，是经验告诉我们可以得到这样的信息。
而且我觉得在任何一个算法里，如果必须由一个人类工程师去定义事情的话，往往会成为一个瓶颈。所以展望未来，我们如何去减少这种人为的经验？是不是可以通过学一个未来预测模型，或者学一个比较通用的世界模型，然后用一种比较统一的方式去看，或者比较直觉的方式去设计？而不是我们需要去对每一个任务特定设计世界模型。我觉得这个可能是将来比较有意思的发展方向。