自动驾驶|毫末智算中心：补齐自动驾驶3.0时代最后一块拼图( 二 ) mana|oasis

1、毫末文件系统（HMFS）
毫末文件系统是MANA OASIS的核心组成要素之一，也是亮点之一。
毫末为什么要研发一个文件系统？大背景是自动驾驶数据从单帧、单要素向连续帧、全要素形态的转变。
毫末智行技术副总裁艾锐表示，随着自动驾驶技术的发展，自动驾驶的文件形态也发生了变化。以前是单帧、单要素形态，现在是Clip、也就是短视频形态。每个Clip包括好几帧视频信号，再加上毫米波、激光雷达等信号，按照时空顺序组织在一起。结果，一个Clip的数据量是原来帧的几十倍。
文件系统里有非常多的CLIP小文件在里面流动，小文件数量达到百亿级。为了提高计算能力，智算中心需要组织一套高效的数据管理方式，提升对文件随机读写的能力。
“对于计算来说，真正的瓶颈不在GPU上，并不是GPU算得不够快。而是卡在通信和文件系统管理上。因为有大量文件需要吞吐，如果文件读取速度太慢，整个训练速度就会卡在那里，相当于大量的GPU在闲置，这就浪费了算力。 ”
基于此，毫末研发了一套以场景库标签为索引的文件管理系统。针对正常行驶里面各种各样Case场景，包括AEB场景，在每一份数据上都注明它对应的某个驾驶功能在某个场景的表现。通过对象存储、大容量、高性能存储和显存之间互相连接，提升读写速度。
有了这套文件管理系统，智算中心的文件读写速度大幅提升。 “在文件读写速度方面，毫末百亿规模的小文件随机读写的延时，可以小于500微秒。只有达到这个水平，才能支撑起来把几十万、几百万的Clip放在一起训练。 ”艾锐说。
2、GPU超算：智算中心底层优化
在GPU超算方面，为了支持多模型训练，毫末跟火山引擎合作，在底层进行专门优化。具体包括：
计算：毫末打造了lego高性能算子库，目前拥有超过500多个高性能算子。基本上现在神经网络能用到的算子，都有了高性能版本，可以快速适配超过200种的网络结构，支持现在业界主流的网络模型。在框架上，也有相应推训一体高性能框架。
通信：实现了All reduce和All to all的实现。利用廉价CPU ，实现除了每秒800G物理带宽之外，能得到更大的虚拟带宽。
框架，采用大模型训练框架，实现了数据、流水、模型的并行，支持SparseMoE混合并行。
众所周知，大模型的数据量非常大，达到千亿级别。如果用常规的训练方式，成本非常贵。为了解决这个问题， MANA OASIS采用SpareMoE方式降低无效计算，并且实现了多机共享和多任务并行，提高计算效率。
比如：车道线大模型，预测模型，标注用的模型等可以关联在一起，同时训练多个任务，节省整体研发时间。
这些措施的最终结果就是：不仅降低了成本，也提高了速度。例如，大模型的训练效率提升100倍左右。
MANA OASIS的价值
花费巨资自建智算中心，对毫末有什么好处？对毫末智能驾驶的用户有什么好处？对自动驾驶企业来说，自建智算中心有什么价值？这笔投资值不值？
对于这些问题，顾维灏形象地回答说：
“士兵上战场都要有个武器。对于AI工程师来讲，他的武器在云端，一个是数据，另一个是拥有的资源，就是用模型来训练这些数据的资源，这就是AI工程师的武器。 ”
他解释：之前，毫末一直在用公有云的服务，公有云的服务也能解决这个问题。但是，如果自建智算中心，它的针对性会更强，性价比会更高，对需求和要求就更加聚焦，优化也会更加聚焦，用起来也更加方便。这是智算中心带给毫末的很大的收益。