物体|斯隆奖新晋得主宋舒然:从视觉出发,打造机器人之「眼」( 七 )


「在工厂或仓库中,机器人每天遇到的物体、物体位置与物体类别高度相似,在这类场景下,机器人的感知与规划已经达到非常成熟的状态。很多工厂的流水线上都安置了自动化机器人。但如果你仔细观察,这些机器人大多是没有『视觉』的,它们只是在记忆特定的动作,然后重复同样的动作,所以它们不能照搬到一个新的环境。」
因此,宋舒然认为,如何让机器人去适应非结构化的环境,是机器人视觉接下来的关键研究方向。在她的研究中,无论是从对人的观察中学习机器人的进化经验,还是强调机器人与现实世界的交互,都是在为这个方向努力。
比如,在FlingBot中,为什么会用「扔」的动作去展开物体呢?宋舒然解释:「如果物体被展开,是更容易被识别的。如果衣物揉成一团,不展开的话你根本不知道是T恤还是裤子。」从这个角度来看,机器人与物理世界的交互也有利于提升感知的准确性。
换言之,在视觉与机器人的联姻中,不仅是视觉帮助机器人感知,反过来,机器人的动作也会增加视觉的感知。

6、探讨「通用人工智能」
AI科技评论:Yann LeCun 之前一直强调自监督学习是下一代人工智能的重要方向,老师您怎么看?
宋舒然:我非常同意。我觉得的确是的。现在我们已经在监督学习上取得了很多的进展,包括ImageNet和现有的许多Benchmark(基准),下一步如果我们想用上更大的数据集,其实很难再标注更多的数据了。我们需要的是在算法上的提高,就是如何去利用这些没有标注的数据。
在这个方向上,不同的领域有不同的定义方法。如何去定义自监督学习?我觉得这是最核心的问题。在计算机视觉领域,你可以做视频预测;在自然语言处理方向,你可以做语言计算。我一直在想的是,在机器人领域,如何定义自监督学习?如何去定义一个统一框架可以去做自主自监督学习?
AI科技评论:而且之前很多人在强调这个方向的时候,好像都没有提到跟现实的交互。
宋舒然:对的,因为它的成本的确比较高。如果你没有机器人,你需要买一个机器人。而且就算是有机器人,通过交互去收集数据,感觉上是要比标注数据慢很多的。但这并不代表它没有前景;相反,我觉得这是一个更有潜力的方向。雷峰网
尤其是,如果你考虑未来的人工智能发展,当机器人不再是一个昂贵的设备,当机器人的标价降低、遍布各地,并且可以执行很多任务时,我觉得通过交互的自监督学习会变成更主流的方法。
AI科技评论:明白。老师您可否再总结一下,这种交互加自监督学习的学习方式,过去的发展、当前存在的瓶颈和未来趋势是什么?
宋舒然:目前「自监督+交互」的方式里仍然掺杂了许多人为经验。我们现在的许多工作,比如我们可以用自监督的方式做「抓取」,原因是我们可以很好地计算这个物体是不是被抓起来了。对于「展开」这个动作也是一样的。我们可以通过物体的表面、面积有没有展开作为一个监督的信息。但是这些奖励虽然是自监督,可以直接从图像里计算,但它也是由人来定义的,是经验告诉我们可以得到这样的信息。
而且我觉得在任何一个算法里,如果必须由一个人类工程师去定义事情的话,往往会成为一个瓶颈。所以展望未来,我们如何去减少这种人为的经验?是不是可以通过学一个未来预测模型,或者学一个比较通用的世界模型,然后用一种比较统一的方式去看,或者比较直觉的方式去设计?而不是我们需要去对每一个任务特定设计世界模型。我觉得这个可能是将来比较有意思的发展方向。