rss|MIT博士生杨珩：从L1到L5，自动驾驶的“拦路虎”可能是一个数学问题系统|扬声器|彭博社|汽车|苹果

上个月，我们报道了MIT在读中国博士生、清华大学机械工程系校友杨珩开发用于提高自动驾驶安全性的可认证感知算法一文，引起了部分读者的关注。然而，当时的报道较简略，因此AI科技评论亲自联系了杨珩本人，围绕「可认证感知算法」这一较为陌生的概念再次进行了补充交流。
那么，什么叫做「可认证感知算法」（Certifiable Perception Algorithm）？它对自动驾驶，或其他机器人（Robotics）方向的研究意义是什么？它的研究难点又是什么？
事实上，「可认证感知算法」最早是一个数学上的概念，在2016年由苏黎世联邦理工学院（ETH）数学系的教授、2018年斯隆研究奖获得者 Afonso S. Bandeira 在“A Note on Probably Certifiably Correct Algorithms”一文中提出。
针对许多优化问题在获得一个解时、没有后验（a posteriori）证明该解是否为最优解的情况，Bandeira 提出了一个 PCC（Probably Correct Certifiable）算法，不仅可以解决经典的优化实例问题，还可以提供一个「后验证书」（a posteriori certificate），向研究人员证明该解为最优解。
在 Bandeira 的这篇工作中，PCC算法也被应用于机器学习的某些场景，比如学习随机块模型（stochastic block model）。本质上，“certificate”是一个数学测度，揭示了研究人员求得的解与全局最优解之间的差距。例如，当差距非常小，只有一亿分之一时，那么研究人员就能知道，该解已是近似最优，可以视为全局最优。
受此启发，杨珩从2018年开始研究可认证感知算法，如今已取得一系列成果。

1. 什么是可认证算法？
在自动驾驶中，可认证感知算法存在的核心意义，是提高车辆在驾驶过程中的安全性，防止意外事故的发生。
如下图所示，自动驾驶车辆A（即“robot”，机器人）在路上行驶的过程中，如“看”到一辆车B，用摄像头拍摄一张照片，照片中会包含该车辆 B。我们假设车辆A的内存里有B的3D模型，而车辆A的任务是估测B的位置和姿态（6D pose, 3D rotation and translation）。这时，A 会用一个神经网络检测出所摄2D平面图像上的所有关键点（keypoints），如车轮、车灯、镜子等等，然后将这些所识别出的目标与3D模型上的关键点进行数据关联（data association），识别物体是车镜、车灯或其他元件。

文章插图

如果神经网络所检测出的关键点与数据关联都是正确的，那么自动驾驶的视觉感知挑战（比如估测车辆B的位置和姿态）在转为数学优化问题时则相对好解。但在实践中，神经网络往往会出错。神经网络的前端可能会输出错误的关键点，比如，有可能将检测出来的镜子识别为汽车的轮子，从而建立一些不正确的关联，也就是所谓的「异常值」（outliers，上图的红色连线）。
在这种情况下，我们往往难以区分 2D 平面图像与 3D 汽车模型中的对应关系中，哪些是正确数据（inliers）、哪些是异常数据（outliers）。这时，自动驾驶车辆 A 在估测车辆 B 的姿态时，如果估计正确，那么线框图会对应地重叠在 A 所拍摄的 2D 图像上；若估计错误，则 2D 图像上会出现许多红点（如上图最右上角所示）。
一旦估计出错，自动驾驶车辆则可能发生碰撞等安全事故问题。比方说，自动驾驶车辆A感知到同时行驶在一条马路上的车辆 B 的存在。B 距离 A 实际只有3米，但如果估计错误，判断 B 距离 A 有10米，那么 A 可能就会加速行驶，造成严重的事故。
所以，用于估计车辆姿态的算法不仅要告诉研究人员一个正确的结果，还要解释这个结果有多么地正确（即解与最优解之间的距离）。当算法失败时，算法也应向驾驶自动车辆的人（或者系统）传递一个信号，使驾驶员能采取其他的行动，比如接管方向盘、停车或及时寻求他人支援等。这，也是「可认证感知算法」的具体内涵。因此，在「安全第一」的自动驾驶领域，可认证感知算法具有深远的现实意义。