很突然、很惊艳，马斯克公布特斯拉人形机器人，自研超算Dojo亮相

机器之心报道
机器之心编辑部
特斯拉的自动化能力很强，不用来造机器人就太浪费了。
「非常抱歉，我们遭遇了一点技术问题，希望以后这可以用 AI 来解决。」今天的活动延迟了半个多小时，伊隆 · 马斯克这样做了开场白。
北京时间 8 月 20 日上午，万众瞩目的「特斯拉 AI 日」开始了。在活动上，伊隆 · 马斯克向全世界展示了特斯拉在自研超级计算机 Dojo、FSD 软件等内容上的最新进展。
按照马斯克本人的说法，吸引最好的 AI 人才加入特斯拉似乎是本次活动的唯一目标。
当然，这次发布向世人宣告的远不止于此，有关通用机器人的计划让我们始料未及。

文章插图

纯视觉自动驾驶系统和 HydraNets
首先，特斯拉最被人们关注的是自动驾驶技术。
特斯拉一直标榜自己的电动车具备高度自动化的辅助驾驶能力，7 月 10 日，FSD（Fully Self Driving，全自动辅助驾驶系统）软件迎来更新。不过当时，更新仅限于特斯拉抢先体验计划用户，这些用户可以进行 FSD Beta V9 版本测试，其最大亮点是基于摄像头和 AI 智能算法的纯视觉自动辅助驾驶技术路线，而不依赖于雷达传感器。
7 月 31 日，特斯拉正式推送 FSD 的最新版本 FSD Beta V9.1，这是首个使用「特斯拉视觉」的先进司机辅助驾驶套件。8 月 16 日，特斯拉又推送了 FSD Beta V9.2 版本。
特斯拉 AI 总监 Andrej Karpathy 博士介绍了这种基于视觉的自动驾驶系统：它通过八个摄像头的数据输入（1280×960 12-Bit HDR 36Hz）进单个神经网络中，整合成 3D 环境的感知，这被称为 Vector Space。

文章插图

「AI 可以被视为生物，它是从头开始构建的，包括其合成视觉皮层。」
当特斯拉在汽车中设计视觉皮层时，他们从头设计了神经网络，按照生物视觉方法去建模，并利用多头路线，其中包括相机校准、缓存、队列和优化以简化所有任务。

文章插图

特斯拉从主干网络中获取数据，并将有用的信息输入到不同的任务中（比如目标检测、交通信号灯和车道预测），同时抛弃其他内容，避免浪费算力。
特斯拉的自动驾驶算法是从识别单张图片的普通计算机视觉算法开始的，虽然每个摄像头的单独检测效果很棒，但这显然不够。现在的纯视觉算法「HydraNets」基于不同摄像头的视觉内容进行识别的，而且训练和推断是端到端的。

文章插图

【很突然、很惊艳，马斯克公布特斯拉人形机器人，自研超算Dojo亮相】该算法将多个摄像头的视觉内容转变为向量空间和道路特征。
多摄像头网络的效果值得肯定，尽管只是数量上的增加，但却可能成为解决预测问题的关键之处。该网络生成的周围景观预测很大程度上提高了自动驾驶系统的稳健性。

文章插图

红绿灯左转是对于自动驾驶的巨大挑战，当车辆在道路上行驶并通过交叉路口时，神经网络会通过 Spacial RNN 进行预测。并在虚拟环境中进行多次模拟，以进一步改善路径规划和理解。

文章插图