物体|斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」( 四 )

图注：宋舒然在普林斯顿大学研究的机器人（“Robot In a Room: Toward Perfect Object Recognition in Closed Environments”）
想象一下，如果一个机器人要打扫房间，那么它既需要有空间导航能力、知道移动到哪里，也需要识别出房间中的不同物体，才可以执行扫地、收拾、整理等任务。
这时，机器人就需要理解两个层级的信息：第一层级是帮助机器人与周围环境互动，可以识别移动的开放空间，并定位要操作的物体对象；第二层级及以上的信息则使机器人了解一个物体是什么，并使用该物体来执行任务。
在这个问题上，以往的研究趋于将两者分开，划分为「场景完成」与「对象标记」。但2017年，宋舒然与团队提出了「SSCNet」系统，通过从单个2D图像生成场景的完整3D表示与场景对象的标记，将两者结合起来，取得了更佳的算法效果。
尽管仍是从3D视觉出发，但这项工作预示了宋舒然之后在研究机器人视觉上的一个重要理念：机器人通过与现实世界的互动中了解世界。比如，即使一个房间里的椅子视线部分被桌子挡住，但如果机器人能够将其对椅子形状的基本识别与房间布局相结合，那么它也能判断桌子旁边的形状是椅子。这类预测的准确率会大幅度提升。

文章插图

图注：在「SSCNet」中，只需要输入「桌子」的图像，就可以预测桌子周围的物体摆放
在3D物体检测与追踪上做了许多工作后，2017年，宋舒然与MIT的机器人团队合作，一起参加了亚马逊机器人挑战赛——Amazon Picking Challenge，开始尝试视觉与机器人的「软硬结合」。
「我们最开始合作的想法非常简单。他们是做机器人的，我们是做视觉的，我们把两边的系统合起来就可以去参加比赛。我们第一年也确实是这么做的。」宋舒然对AI科技评论讲道。
不过，这种「粗鲁搭配」的做法并没有取得很好的效果。
2017年，他们合作的方式是：由宋舒然的计算机视觉组先定义一个要输出的算法结果（如物体姿势），然后再由MIT的机器人组通过视觉输出的算法去做动作规划（motion planning），计算机器人如何可以抓取目标物体。
但这次的合作并不高效。普林斯顿与MIT位于不同的城市，两个团队之间的交流主要是通过邮件传代码，宋舒然团队的视觉算法过了一个月后才放在MIT的机器人上试验。
在试验的过程中，他们也发现了许多问题，比如：宋舒然团队所提出的视觉算法非常慢，导致整个系统也很慢；可用于训练的标注数据极其有限，模型跑不起来；算法精度不够，对于计算机视觉来说，误差在5度5厘米以内的算法精度已是效果极佳，但当这个误差被真正应用在机器人操作上时，却可能造成整个机器人环境的崩溃。
所以，2017年的比赛中，他们只取得了第三名的成绩。但是，这次的合作也激起了宋舒然对机器人视觉的研究热情，他们发现了许多有意思的问题，激发了许多提升系统的想法，于是决定继续合作参加2018年的比赛。

文章插图

图注：MIT-Princeton 团队在亚马逊机器人竞赛 (2018)
这一次，宋舒然和整个团队对物体姿态的算法进行了重新整合，不再使用中间的物体姿态作预测，而是直接从图像出发去预测机器人应该采取怎样的动作。如此一来，整个算法系统的速度有了大幅提升，而且更加通用。
亚马逊挑战赛的内容是：机器人要从一个装了各种物体的盒子里挑选出目标物体。这时，盒子里的物体之间可能彼此遮挡，会挡住机器人的视线。