自动驾驶|毫末智算中心:补齐自动驾驶3.0时代最后一块拼图( 二 )


1、毫末文件系统(HMFS)
毫末文件系统是MANA OASIS的核心组成要素之一 , 也是亮点之一 。
毫末为什么要研发一个文件系统?大背景是自动驾驶数据从单帧、单要素向连续帧、全要素形态的转变 。
毫末智行技术副总裁艾锐表示 , 随着自动驾驶技术的发展 , 自动驾驶的文件形态也发生了变化 。 以前是单帧、单要素形态 , 现在是Clip、也就是短视频形态 。 每个Clip包括好几帧视频信号 , 再加上毫米波、激光雷达等信号 , 按照时空顺序组织在一起 。 结果 , 一个Clip的数据量是原来帧的几十倍 。
文件系统里有非常多的CLIP小文件在里面流动 , 小文件数量达到百亿级 。 为了提高计算能力 , 智算中心需要组织一套高效的数据管理方式 , 提升对文件随机读写的能力 。
“对于计算来说 , 真正的瓶颈不在GPU上 , 并不是GPU算得不够快 。 而是卡在通信和文件系统管理上 。 因为有大量文件需要吞吐 , 如果文件读取速度太慢 , 整个训练速度就会卡在那里 , 相当于大量的GPU在闲置 , 这就浪费了算力 。 ”
基于此 , 毫末研发了一套以场景库标签为索引的文件管理系统 。 针对正常行驶里面各种各样Case场景 , 包括AEB场景 , 在每一份数据上都注明它对应的某个驾驶功能在某个场景的表现 。 通过对象存储、大容量、高性能存储和显存之间互相连接 , 提升读写速度 。
有了这套文件管理系统 , 智算中心的文件读写速度大幅提升 。 “在文件读写速度方面 , 毫末百亿规模的小文件随机读写的延时 , 可以小于500微秒 。 只有达到这个水平 , 才能支撑起来把几十万、几百万的Clip放在一起训练 。 ”艾锐说 。
2、GPU超算:智算中心底层优化
在GPU超算方面 , 为了支持多模型训练 , 毫末跟火山引擎合作 , 在底层进行专门优化 。 具体包括:
计算:毫末打造了lego高性能算子库 , 目前拥有超过500多个高性能算子 。 基本上现在神经网络能用到的算子 , 都有了高性能版本 , 可以快速适配超过200种的网络结构 , 支持现在业界主流的网络模型 。 在框架上 , 也有相应推训一体高性能框架 。
通信:实现了All reduce和All to all的实现 。 利用廉价CPU , 实现除了每秒800G物理带宽之外 , 能得到更大的虚拟带宽 。
框架 , 采用大模型训练框架 , 实现了数据、流水、模型的并行 , 支持SparseMoE混合并行 。
众所周知 , 大模型的数据量非常大 , 达到千亿级别 。 如果用常规的训练方式 , 成本非常贵 。 为了解决这个问题 , MANA OASIS采用SpareMoE方式降低无效计算 , 并且实现了多机共享和多任务并行 , 提高计算效率 。
比如:车道线大模型 , 预测模型 , 标注用的模型等可以关联在一起 , 同时训练多个任务 , 节省整体研发时间 。
这些措施的最终结果就是:不仅降低了成本 , 也提高了速度 。 例如 , 大模型的训练效率提升100倍左右 。
MANA OASIS的价值
花费巨资自建智算中心 , 对毫末有什么好处?对毫末智能驾驶的用户有什么好处?对自动驾驶企业来说 , 自建智算中心有什么价值?这笔投资值不值?
对于这些问题 , 顾维灏形象地回答说:
“士兵上战场都要有个武器 。 对于AI工程师来讲 , 他的武器在云端 , 一个是数据 , 另一个是拥有的资源 , 就是用模型来训练这些数据的资源 , 这就是AI工程师的武器 。 ”
他解释:之前 , 毫末一直在用公有云的服务 , 公有云的服务也能解决这个问题 。 但是 , 如果自建智算中心 , 它的针对性会更强 , 性价比会更高 , 对需求和要求就更加聚焦 , 优化也会更加聚焦 , 用起来也更加方便 。 这是智算中心带给毫末的很大的收益 。