rss|MIT博士生杨珩:从L1到L5,自动驾驶的“拦路虎”可能是一个数学问题( 五 )


实验证明,当问题的维度(dimension)较低时,SDPT3 和 MOSEK 可以求解,但速度不到 STRIDE 的二分之一。比如,在维度为 104 时,MOSEK 的求解时间是 870 秒,而 STRIDE 只需 45 秒;维度为 204 时,MOSEK 无法求解,而其他算法虽然可以解,但却解不到全局最优,精确度不够。当维度达到 1004 时,即使给再多的运行时间,其他求解器也无法达到与 STRIDE 相匹配的精确度。
杨珩介绍,他们所提出的算法是目前唯一能够解决大规模一阶(rank-one)SDP问题的方法。他们在百度的自动驾驶数据集 Apollo Scape (图像采集自北京、上海与深圳)上做过实验,STRIDE 的性能明显优于 MOSEK 等求解器。
rss|MIT博士生杨珩:从L1到L5,自动驾驶的“拦路虎”可能是一个数学问题
文章插图

此前,他们的工作曾发表在 NeurIPS 2020 上,但当时,算法只解决了 4 个常见的感知问题。加上 STRIDE 后,他们尝试将算法拓展至更广泛的设置下进行,解决了 6 个感知问题,包括单点旋转均匀(single rotation averaging)、多点旋转均匀(multiple rotation averaging)、点云配准、网格配准、绝对姿态估计与分类感知。
rss|MIT博士生杨珩:从L1到L5,自动驾驶的“拦路虎”可能是一个数学问题
文章插图

求解器的核心思想是优化与决策,而自动驾驶的运行就是“robot”(汽车)一直在做决策。比如,自动驾驶车辆要从 a 点走到 b 点,而 a 点与 b 点之间有一个障碍物,那么,规划一条从 a 点到 b 点的最短路线,便是一个近似优化问题。
杨珩还介绍,STRIDE求解器不仅可以解决机器视觉问题,还有望解决一些数学问题。他们最近做了一些新的工作,便计划投到数学类的期刊与会议上。

4. 数学不可或缺
目前,杨珩的工作还处于学者讨论的阶段,距离落地还有一段很长的距离。
尽管他们的算法在求解速度上已经很快,但实际的求解时间也要 1 个小时。如果可认证算法要在现实中落地,那么求解时间至少要从 1 个小时缩减到 1 秒。雷锋网
「很多人认为自动驾驶很简单,那或许是因为他们还没有体会到数学和科学计算有多难。」杨珩感叹,「从 L1 到 L5,自动驾驶要解决的都是数学问题。越来越多人发现,自动驾驶不是只依靠神经网络就能成功。」雷锋网
尽管如此,杨珩的可认证感知算法仍有存在的意义:「我可以认证,只是我现在认证的时间比较长而已。」在未来,计算硬件的提升可能会带来问题的突破。
对杨珩等痴迷理论研究的科研者来说,在研究可认证算法的过程中,「非凸」转「凸」的成功,才是一件比求解时间从 1 小时缩减到 1 秒更令人激动的突破。
在研究的过程中,杨珩受到许多数学知识的帮助与启发,也取得了不少突破性的成果。因此,他觉得数学在视觉算法研究(和其他科学研究)中是一门十分重要的学科:
硬核数学问题会非常考验人的耐心。我觉得有时候也不是难不难的问题,而是你能不能花一天的时间看一篇数学文章,搞懂这篇文章的所有细节。有可能你看了5遍之后,你就会醍醐灌顶。在那一瞬间,这个方法成为了你自己的方法。一旦你掌握了这个方法之后,你就会发现这个方法特别地 powerful(强大),可以将它应用到很多别的方案中。雷锋网
如果有一天,你能想明白数学家是怎么理解问题的,可能你的境界就高了一层。
谈到未来的研究方向,杨珩的愿望之一是用可认证算法来指导神经网络的训练过程,提高神经网络的安全性。
少年新马,未来可期。
参考链接:
1. A. Bandeira. A note on probably certifiably correct algorithms. Comptes Rendus Mathematique, https://arxiv.org/pdf/1509.00824.pdf