借力算法，海天瑞声驾驭自动驾驶“新引擎”( 二 ) 机器之心原创作者：吴昕2022年

具体到自动驾驶项目需求上，海天瑞声在项目启动前会安排专业团队先根据需求设计好训练数据集结构，让容量有限的训练数据集能够覆盖尽可能多的现象，并制定相应合理的数据比例。
比如，项目如果涉及卡车，覆盖高速路场景的比例会很高，上下闸道之类的相关场景也要考虑到；如果涉及市内乘用车，设计方案时需要覆盖各种路口情况，诸如三叉路的十字路口、转向线等，有没有掉头的，或者不是两侧掉头的，甚至左转道在最右侧等罕见情况，都要覆盖到。
为了让数据集更完整、丰富，诸如道路两侧场景、路上障碍物，车辆拥挤、稀疏以及行人多少之类情况也要提前考虑，特别是一些突发情况，比如突然横穿马路，尽管这种场景的覆盖难度会更大。

文章图片
海天瑞声自动驾驶数据业务的主要内容
有时，客户也并不清楚什么样的数据方案更符合算法需求。例如较之经验相对丰富的互联网大厂，传统车企更需要拥有丰富方案设计经验的服务商，帮忙引导、梳理并细化出具体需求。
比如，面对突发状况司机踩刹车，对于自动驾驶决策系统来说，急刹车之前多少秒的数据更有价值？低可视度恶劣天气场景的数据量需要多少？需要以何种方式采集？以多少秒一帧的速度采集？
通过技术对技术、算法层面的反复沟通，海天瑞声可以帮助客户找到更加贴合使用场景的数据方案，缩减研发周期、加快落地进程，同时避免客户花费更多成本。
三、「人机耦合」下的精度、效率与规模
高质量自动驾驶训练数据，除了来自样本丰富度的“刁难” ，还要面临标注过程高精度、高效率规模化作业带来的挑战。
举例来说，同样是99%精准度，对语音合成任务中的大多场景来说已经足够优质，但对于自动驾驶场景来说，却极有可能埋下安全隐患。
基于对安全性的严苛要求，智能驾驶数据（主要是舱外）正朝着多模态的方向发展，所谓多模态，是指多维时间、空间、环境数据的感知与融合。比如，一辆车可能配置少则4-5个、多则十几个摄像头，外加雷达（激光雷达、毫米波雷达、超声波雷达等）。
市面采用的激光雷达基本都是64线甚至以上，受限于各种硬件设备，传回来的数据很难做到完全同步。由于点云是一个连续帧的概念，标注多路数据如果不一致，会影响到算法模型训练。另一方面， 3D激光雷达数据和2D普通摄像头数据标注如何同步，也是一个难点。这些都成为横亘在高精度标注需求面前的难题。
【借力算法，海天瑞声驾驭自动驾驶“新引擎”】与此相对应的却是标注环节生产力的落后。

文章图片
训练数据生产过程示意图
《2019年中国人工智能基础数据服务行业白皮书》分析指出， 2010-2016年早期数据标注需求激增，加之入行门槛低，涌入了大量玩家，鱼龙混杂。直到今天，绝大部分数据服务商还处于解决「数据标注工具有无」的阶段。
很多团队依靠开源工具完成绝大部分项目，不仅没有点云标注工具，基本流程管理也没有（比如，哪类数据应该被筛选？质量不合格的标注该怎么办？），根本不可能交付自动驾驶所需的高质量、高精度数据集。
而伴随AI在出行领域的深入落地，智能驾驶级别越高，所需的传感器数量则越多、精度要求也越高，相应的数据量就会急剧增加，一个项目动辄数百万条的数据处理量，早已不是作坊式作业可以应对。