特斯拉Dojo超算细节大公开!涉及指令集结构、数据格式等

原标题:特斯拉Dojo超算最新细节大公开!涉及指令集结构、数据格式 , 还有系统网络
特斯拉备受关注的Dojo超算指令集结构细节史上首次大公开!
而且还大秀了一把Dojo的数据格式、系统网络 , 以及软件系统绕行死节点的能力 。
特斯拉Dojo超算细节大公开!涉及指令集结构、数据格式等
文章图片
关于特斯拉自研的AI芯片D1 , 更多细节也被披露 。
一切来自刚刚举办的硅谷芯片技术研讨会HOTCHIPS , 听特斯拉硬件工程师EmilTalpes怎么说 。
特斯拉Dojo超算
所谓Dojo , 是特斯拉自研的超级计算机 , 能够利用海量的视频数据 , 做“无人监管”的标注和训练 。
它有高度可扩展且完全灵活的分布式系统 , 能够训练神经网络 , 还能适应新的算法和应用 。
特斯拉Dojo超算细节大公开!涉及指令集结构、数据格式等
文章图片
不仅如此 , 还能从头开始构建大系统 , 而不是从现有的小系统演变而来 。
每个DojoExaPod集成了120个训练模块 , 内置3000个D1芯片 , 拥有超过100万个训练节点 , 算力达到1.1EFLOP*(每秒千万亿次浮点运算) 。
微架构方面 , 每个Dojo节点都有一个内核 , 是一台具有CPU专用内存和I/O接口的成熟计算机 。
特斯拉Dojo超算细节大公开!涉及指令集结构、数据格式等
文章图片
特斯拉Dojo超算细节大公开!涉及指令集结构、数据格式等】这很重要 , 因为每个内核都可以做到独立处理 , 而不依赖于共享缓存或寄存器文件 。
每个内核拥有一个1.25MB的SRAM , 这是主存储器 。 这种SRAM能以400GB/秒的速度加载 , 并以270GB/秒的速度存储 。
芯片有明确的指令 , 可以将数据移入或移出Dojo超算中其他内核的外部SRAM存储器 。
特斯拉Dojo超算细节大公开!涉及指令集结构、数据格式等
文章图片
嵌入SRAM中的是列表解析器引擎(listparserengine) , 诸如此类的引擎可以将信息一起发送到其他节点或从其他节点获取信息 , 无需像其他CPU架构一样 。
至于通信接口 , 每个节点都与2D网格相连 , 在节点边界处每周期有八个数据包 。 而且每个节点都有独立的网络连接 , 能与相邻节点进行无缝连接 。
特斯拉Dojo超算细节大公开!涉及指令集结构、数据格式等
文章图片
关于Dojo的指令集 , 它支持64位标量指令和64BSIMD指令 , 能够处理从本地到远程内存传输数据的原语(primitives) , 并支持信号量(semaphore)和屏障约束(barrierconstraints) 。
特斯拉自研AI芯片新进展
数据格式对AI来说至关重要 , 特别是芯片所支持的数据格式 。
特斯拉借助Dojo超算来研究业界常见的芯片 , 例如FP32、FP16和BFP16 。
特斯拉Dojo超算细节大公开!涉及指令集结构、数据格式等
文章图片
FP32格式比AI训练应用的许多部分所需的精度和范围更广 , IEEE指定的FP16格式没有覆盖神经网络中的所有处理层 。
相反 , 谷歌Brain团队创建的Bfloat格式应用范围更广 , 但精度更低 。
特斯拉不仅提出了用于较低精度和更高矢量处理的8位FP8格式 , 还提出了一组可配置的8位和16位格式 , Dojo超算可以在尾数的精度附近滑动 , 以涵盖更广泛的范围和精度 。
在给定时间内 , 特斯拉最多可以使用16种不同的矢量格式 , 但每个64B数据包必须属于同一类型 。
特斯拉Dojo超算细节大公开!涉及指令集结构、数据格式等
文章图片
特斯拉自研的D1芯片 , 是DojoExaPod的核心 。
由台积电制造 , 采用7纳米制造工艺 , 拥有500亿个晶体管 , 芯片面积为645mm2 , 小于英伟达的A100(826mm2)和AMDArcturus(750mm2) 。