cto|嬴彻科技CTO杨睿刚博士与你分享CVPR 2021入选论文算法

机器之心发布
机器之心编辑部
在本文中，嬴彻科技首席技术官（CTO）杨睿刚博士就被本届大会被收录的 5 篇论文为大家带来解读。
一年一度的 CVPR 2021 正如火如荼地在线上举行，来自全球的逾 7,000 位学者通过线上网络分享和交流计算机视觉和人工智能领域的前沿研究。
嬴彻科技首席技术官（CTO），杨睿刚博士，就被本届大会收录的 5 篇论文为大家带来一一解读。此外，作为 CVPR 2021 大会程序主席（Program Chair），他也分享了对今年的大会论文投稿数、接收率、论文质量等方面的看法。
这 5 篇论文，包含 2 篇 Oral 论文，主要集中在语义分割、迁移语义、深度估计等方向，具有较高的工业化应用前景，能够为高阶自动驾驶方案提供充分的理论支撑。这 5 篇论文也是嬴彻科技的研发人员与香港大学、香港中文大学、北京理工大学等研究机构基于嬴彻自动驾驶系统研发工作的共同成果。
论文分享，自动驾驶学术前沿一睹为快
1、圆柱坐标系和非对称 3D 卷积神经网络在激光点云划分中的应用
Cylindrical and Asymmetrical 3D Convolution Networksfor LiDAR Segmentation

文章插图
在语义分割任务中，模型的任务是为 3D 点云中的每个点分配一个语义标签。为了解决室外点云的密度不均和稀疏性问题，该论文提出了包含圆柱坐标系下的体素划分和非对称 3D 卷积网络两大部分的框架。前者负责对点云进行圆柱体形式的划分，这种方法适配了激光雷达扫描时的扇形分布特性，避免了远近处获得的点云数量不均匀。后者可更好地匹配驾驶场景下的物体分布和形状，并基于二维和三维分解挖掘上下文信息，从多角度看到每个点云的全貌，从而解决点云稀疏性难题。最后，该论文还引入了一个 point-wise 模块来改进前面得到的体素块输出，以点块结合的方式提高了辨识精度。
这项新的算法在两个大型室外场景数据集（SemanticKITTI 和 nuScenes）上进行了模型评估。在 SemanticKITTI 数据集上，新框架取得了两项第一。在 nuScenes 数据集上，新方法的表现也大大超过了之前的方法。
新的算法被应用在嬴彻科技自动驾驶系统的感知算法中，作为 “精准语义分割 3D 感知技术” 的核心算法，能够更鲁棒、更及时感知道路上突发遇到的各类物体，从而帮助自动驾驶系统更准确地做出决策规划，让高速行车更安全。
关键词：圆柱坐标系，点云语义分割
论文链接：https://github.com/xinge008/Cylinder3D
2、领域自适应的迁移语义增强
Transferable Semantic Augmentation for Domain Adaptation

文章插图

文章插图
增强结果可视化
领域自适应主要是研究如何利用具有大量标签的源域知识，来辅助模型在一个相关但是无标签的目标域上的学习。现有的领域自适应方法大多是基于一个共享的源域监督分类器来对齐两个域的特征表示。然而，这种分类器限制了模型在未标记目标域上的泛化能力。
针对这个问题，该论文提出了一种迁移语义增强方法（TSA）：通过朝着目标域的语义方向，隐式地生成源域增强特征，利用这些具有目标域语义的增强特征来提高模型在目标域上的泛化能力。
在该论文中，对于每一类，TSA 利用一个多元正态分布来建模两个域之间该类的语义差异，然后从构建的分布中随机采样语义增强方向来增强源域特征。最后，论文通过最小化一个期望损失函数的上界实现了源域特征的无限增广。相比于其他应用于 DA 的数据增强方法，TSA 是隐式增强，其引入的额外计算开销几乎可忽略不计，更轻量通用。在多个公开的跨领域数据集上，TSA 都取得了更有竞争力的实验结果。