机器人|很突然、很惊艳，马斯克公布特斯拉人形机器人，自研超算Dojo亮相

机器之心报道机器之心编辑部特斯拉的自动化能力很强，不用来造机器人就太浪费了。「非常抱歉，我们遭遇了一点技术问题，希望以后这可以用 AI 来解决。」今天的活动延迟了半个多小时，伊隆 · 马斯克这样做了开场白。北京时间 8 月 20 日上午，万众瞩目的「特斯拉 AI 日」开始了。在活动上，伊隆 · 马斯克向全世界展示了特斯拉在自研超级计算机 Dojo、FSD 软件等内容上的最新进展。按照马斯克本人的说法，吸引最好的 AI 人才加入特斯拉似乎是本次活动的唯一目标。当然，这次发布向世人宣告的远不止于此，有关通用机器人的计划让我们始料未及。这里是文章图片\1.gif纯视觉自动驾驶系统和 HydraNets首先，特斯拉最被人们关注的是自动驾驶技术。特斯拉一直标榜自己的电动车具备高度自动化的辅助驾驶能力，7 月 10 日，FSD（Fully Self Driving，全自动辅助驾驶系统）软件迎来更新。不过当时，更新仅限于特斯拉抢先体验计划用户，这些用户可以进行 FSD Beta V9 版本测试，其最大亮点是基于摄像头和 AI 智能算法的纯视觉自动辅助驾驶技术路线，而不依赖于雷达传感器。7 月 31 日，特斯拉正式推送 FSD 的最新版本 FSD Beta V9.1，这是首个使用「特斯拉视觉」的先进司机辅助驾驶套件。8 月 16 日，特斯拉又推送了 FSD Beta V9.2 版本。特斯拉 AI 总监 Andrej Karpathy 博士介绍了这种基于视觉的自动驾驶系统：它通过八个摄像头的数据输入（1280×960 12-Bit HDR 36Hz）进单个神经网络中，整合成 3D 环境的感知，这被称为 Vector Space。
文章插图
「AI 可以被视为生物，它是从头开始构建的，包括其合成视觉皮层。」当特斯拉在汽车中设计视觉皮层时，他们从头设计了神经网络，按照生物视觉方法去建模，并利用多头路线，其中包括相机校准、缓存、队列和优化以简化所有任务。
文章插图
特斯拉从主干网络中获取数据，并将有用的信息输入到不同的任务中（比如目标检测、交通信号灯和车道预测），同时抛弃其他内容，避免浪费算力。特斯拉的自动驾驶算法是从识别单张图片的普通计算机视觉算法开始的，虽然每个摄像头的单独检测效果很棒，但这显然不够。现在的纯视觉算法「HydraNets」基于不同摄像头的视觉内容进行识别的，而且训练和推断是端到端的。
文章插图
该算法将多个摄像头的视觉内容转变为向量空间和道路特征。多摄像头网络的效果值得肯定，尽管只是数量上的增加，但却可能成为解决预测问题的关键之处。该网络生成的周围景观预测很大程度上提高了自动驾驶系统的稳健性。
文章插图
红绿灯左转是对于自动驾驶的巨大挑战，当车辆在道路上行驶并通过交叉路口时，神经网络会通过 Spacial RNN 进行预测。并在虚拟环境中进行多次模拟，以进一步改善路径规划和理解。
文章插图
在算法模拟的单元空间中，每一个 unit 都是一个 RNN，并随着车辆的运动更新。
文章插图
Karpathy 指出，特斯拉现在的 FSD 战略是更具凝聚力的。事实证明，特斯拉的车辆可以有效地绘制实时地图。与 Super Cruise 和 Waymo 等汽车及软件领域的竞争对手的预绘制地图策略相比，这是一个巨大的差异。自动驾驶软件总监 Ashok Elluswamy 介绍了混合规划系统，以 Autopilot 如何变道为例，当与其他汽车并排行驶时，Autopilot 不仅要考虑它们的驾驶方式，还必须考虑其他汽车的运行方式。在狭窄的过道周围进行规划时，重要的是要考虑其他驾驶员及其行为，例如在必要时让行：