特斯拉造出人形机器人！身高1米7，最强AI计算机也来了「附1( 二 ) ai|机器人|自动驾驶|马斯克|英

该超算内置特斯拉自研AI训练芯片D1。D1芯片采用7nm工艺制造，单芯片面积达645mm2，包含500亿个晶体管，BF16/CFP8峰值算力达362TFLOPS，FP32峰值算力达22.6TFLOPS，热设计功耗（TDP）不超过400W。

文章插图

特斯拉D1芯片的各项性能
该芯片具有GPU级别训练能力和CPU级别可控性，可实现50万个训练节点无缝连接。由此特斯拉提出由25个D1芯片组成的训练单元（tile）。
一个训练单元的接口带宽每秒36TB，算力达9PFLOPS，采用了集中供电和散热设计，散热能力15kW。

文章插图

特斯拉芯片阵列
拥有120个训练单元、3000颗D1芯片、超过100万个训练节点的特斯拉机柜模型ExaPOD，其BF16/CFP8算力高达1.1EFLOPS。
特斯拉芯片阵列展示
其分布式系统是分区块的，Dojo处理单元DPU（DojoProcessingUnit）是一个可根据应用需求调整大小的虚拟设备，包含多个D1芯片和接口处理器。特斯拉编译器引擎可自动将执行指令映射到DPU上，无需人工操作。特斯拉打造了一整套软件堆栈。

文章插图

Dojo软件栈架构
Ganesh说，特斯拉Dojo是史上最快的AI训练计算机。同等功耗下，Dojo超算比现有计算机性能提升4倍、能效提升1.3倍、碳足迹只有原来的1/5。此外，特斯拉预告下一代Dojo超算性能将再提升10倍，不过它并没有透露具体实现日期。
在Dojo发布环节的最后，Ganesh提到特斯拉正在大力招募人才以推进AI研发。
而在特斯拉造出自己的超算之前，也已经利用英伟达GPU搭建了一个世界排名第五的超级计算机。

文章插图

特斯拉超级计算机
这个超算使用了720个节点，每个节点8个英伟达A100TensorCoreGPU（共5760个GPU），实现了1.8EFLOPS的性能。

文章插图

英伟达A100TensorCoreGPU
由此可见，无论是特斯拉的Dojo，还是此前用英伟达GPU组装的超算，都能够跻身AI计算领域的前几名。
问答环节，马斯克回应称，开发所有这些技术非常昂贵，所以他不确定如何实现开源，但对将AI技术授权给其他汽车公司持开放态度。
二、破除纯视觉感知的所有不靠谱千人团队标记数据
特斯拉AI高级总监AndrejKarpathy上台，讲述了特斯拉是如何通过视觉感知，再进行规划控制，实现自动驾驶的。
他说，特斯拉通过车身四周的8枚摄像头，形成三维矢量空间，感知出车身周围的环境。

文章插图

人眼视觉信息传递与特斯拉AI视觉信息传递对比
Karpathy说，设计自动驾驶AI视觉时可以逆向工程成人脑识别图像。例如在为汽车设计其“视觉皮层”时，特斯拉根据眼睛如何感知生物视觉进行建模。
特斯拉的8个摄像头都采用1280*960分辨率12bitHDR图像，以每秒36帧的速率采集，就能够实现良好的感知效果。

文章插图

车身上的八个摄像头汇集成三维的“向量空间”
经过神经网络计算时，自动驾驶电脑会不断缩小分辨率，同时提升通道数量。
除了识别车辆，特斯拉还会识别人、红绿灯等多种物体，因此特斯拉开发了多人需学习的HydraNets网络。HydraNets网络共有三个特点，第一是能够高效测试；二是能够单独微调每个任务，同时还能特征缓存与加速微调，突破再现的瓶颈。