特斯拉造出人形机器人!身高1米7,最强AI计算机也来了「附1( 二 )
该超算内置特斯拉自研AI训练芯片D1。D1芯片采用7nm工艺制造,单芯片面积达645mm2,包含500亿个晶体管,BF16/CFP8峰值算力达362TFLOPS,FP32峰值算力达22.6TFLOPS,热设计功耗(TDP)不超过400W。
文章插图
特斯拉D1芯片的各项性能
该芯片具有GPU级别训练能力和CPU级别可控性,可实现50万个训练节点无缝连接。由此特斯拉提出由25个D1芯片组成的训练单元(tile)。
一个训练单元的接口带宽每秒36TB,算力达9PFLOPS,采用了集中供电和散热设计,散热能力15kW。
文章插图
特斯拉芯片阵列
拥有120个训练单元、3000颗D1芯片、超过100万个训练节点的特斯拉机柜模型ExaPOD,其BF16/CFP8算力高达1.1EFLOPS。
特斯拉芯片阵列展示
其分布式系统是分区块的,Dojo处理单元DPU(DojoProcessingUnit)是一个可根据应用需求调整大小的虚拟设备,包含多个D1芯片和接口处理器。特斯拉编译器引擎可自动将执行指令映射到DPU上,无需人工操作。特斯拉打造了一整套软件堆栈。
文章插图
Dojo软件栈架构
Ganesh说,特斯拉Dojo是史上最快的AI训练计算机。同等功耗下,Dojo超算比现有计算机性能提升4倍、能效提升1.3倍、碳足迹只有原来的1/5。此外,特斯拉预告下一代Dojo超算性能将再提升10倍,不过它并没有透露具体实现日期。
在Dojo发布环节的最后,Ganesh提到特斯拉正在大力招募人才以推进AI研发。
而在特斯拉造出自己的超算之前,也已经利用英伟达GPU搭建了一个世界排名第五的超级计算机。
文章插图
特斯拉超级计算机
这个超算使用了720个节点,每个节点8个英伟达A100TensorCoreGPU(共5760个GPU),实现了1.8EFLOPS的性能。
文章插图
英伟达A100TensorCoreGPU
由此可见,无论是特斯拉的Dojo,还是此前用英伟达GPU组装的超算,都能够跻身AI计算领域的前几名。
问答环节,马斯克回应称,开发所有这些技术非常昂贵,所以他不确定如何实现开源,但对将AI技术授权给其他汽车公司持开放态度。
二、破除纯视觉感知的所有不靠谱千人团队标记数据
特斯拉AI高级总监AndrejKarpathy上台,讲述了特斯拉是如何通过视觉感知,再进行规划控制,实现自动驾驶的。
他说,特斯拉通过车身四周的8枚摄像头,形成三维矢量空间,感知出车身周围的环境。
文章插图
人眼视觉信息传递与特斯拉AI视觉信息传递对比
Karpathy说,设计自动驾驶AI视觉时可以逆向工程成人脑识别图像。例如在为汽车设计其“视觉皮层”时,特斯拉根据眼睛如何感知生物视觉进行建模。
特斯拉的8个摄像头都采用1280*960分辨率12bitHDR图像,以每秒36帧的速率采集,就能够实现良好的感知效果。
文章插图
车身上的八个摄像头汇集成三维的“向量空间”
经过神经网络计算时,自动驾驶电脑会不断缩小分辨率,同时提升通道数量。
除了识别车辆,特斯拉还会识别人、红绿灯等多种物体,因此特斯拉开发了多人需学习的HydraNets网络。HydraNets网络共有三个特点,第一是能够高效测试;二是能够单独微调每个任务,同时还能特征缓存与加速微调,突破再现的瓶颈。
- 普莉希拉|祖籍徐州的普莉希拉,嫁全球第5富豪扎克伯格,坐拥6530亿被说丑
- 自动驾驶|华为首秀自动驾驶,王兴:特斯拉遇到技术与忽悠能力相当的对手了
- 美通社|驭势科技与Teksbotics打造无人驾驶递送车现身沙特 | 阿卜杜拉
- 河南消费者协会主任就辛巴燕窝事件发声。老狗称李四拉不了。
- 热泵低温被爆低温“歇菜”!特斯拉OTA解决:寒冷地区-15℃仍可能失效
- 官宣了!免费
- 摩托罗拉|Mate50也不香了,麒麟9000+5000万徕卡三摄,华为老旗舰降至冰点
- 布局潮范多元化圈层 看MAZDA3昂克赛拉如何玩出花样?
- 1月15日|凯迪拉克LYRIQ:开启惊艳纯电之旅
- 新快报讯 记者张磊报道 2021年三季度|线上线下双“IQ”赋能,凯迪拉克LYRIQ打造更高维度的用户互联