数据|自动驾驶规模化落地的“三座大山”

文章插图
图片来源@视觉中国
【数据|自动驾驶规模化落地的“三座大山”】文丨AI商业周刊
深度学习技术很玄幻。它不可解释，又蕴含人生哲学。
比如它需要喂大量的感知数据，且数据的质量直接影响算法精度。对比我们为人，多与优秀、厚德之人交友，更能提升修养——也解释了环境为何能影响人。
数据是机器认知世界的“粮食”，算法就像大脑和思维方式，算力如身体。如果你有强大的脑力，但缺乏强壮的体魄，再好的算法亦如过眼云烟。中国的传统思想很强调提升个人思想与修养，但体魄是我们实现这些的基础。
算法又与人类解决实际问题很相通，比如计算机的车牌检测是一种算法，垃圾检测是一种算法，识别犯罪团伙也是一种算法，医学影像又是一种算法……计算机处理大事小事均有不同类型的算法。相比较人类，处理工作当中的人际关系是一种算法，财务管理是一种算法，写代码是一种算法……方式方法分门别类。反之推理，人类要更好解决问题，可参考计算机的认知世界的模式：不断寻找和优化最好的方式方法，就像算法迭代和升级那样。
为何要讲深度学习与人类处理实际问题的关联？因为本文涉及自动驾驶技术发展的面临的关键问题：伦理道德。在讨论这个问题之前，须先探讨行业面临的关键技术难题，自动驾驶规模化商业落地，技术才是源头和根本。
视觉技术：自动驾驶破局的核心如果站在未来回顾科技发展，2021年一定很特别，这一年，世界与中国都发生了深刻变革。全球气候危机逼近，新冠疫情关键转折，中国生育率首次低于日本，互联网巨头垄断时代落幕，汽车产业也到了巨变的前夜。
2021年，也是移动互联网时代的结束，一个全新的硬科技创新的周期敲响钟声了。在这个新的技术周期里，自动驾驶如灿烂星空的一道耀眼的光。
今年，大量车厂发布了L3和L2自动驾驶解决方案，接下来将有大量带着这些解决方案的车在路上跑。2021年也被称为自动驾驶元年。
特斯拉CEO埃隆·马斯克在2021年新能源世界大会上说，“特斯拉相信自动辅助驾驶可以完全通过视觉神经网络来实现，因为人就是生物意义上的视觉神经网络驾驶的，所以计算机也一定可以。”
与人类一样，机器感知世界最重要的方式就是视觉，占比近60%，远超听觉、嗅觉、味觉。马斯克也表示，视觉可以应对95%-99%的辅助驾驶场景。

文章插图
但马斯克说的纯视觉技术路径也存在一个很大的BUG，由于深度学习的通用能力局限，机器很难把看到过的场景泛化到一个全新陌生的环境，车在路上遇到未看过的场景就会“不知所措”。
要应对这个行业痛点，AI商业评论认为，主要有三种方法：
其一，通用人工智能（AGI）技术取得飞跃。谷歌、微软以及商汤科技等前沿AI企业均在大力研发通用AI。
今年10月30日，谷歌人工智能主管Jeff Dean发文，称他们正在研究下一代AI框架Pathways，目标直指AGI。
仅不到一个月，11月17日，上海人工智能实验室联合商汤科技SenseTime、香港中文大学、上海交通大学共同发布了新一代通用视觉技术体系“书生”（INTERN），该体系旨在系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。
微软也于2019年向OpenAI投资10亿美元，以支持构建具有广泛经济效益的通用人工智能技术（AGI）。
因为通用人工智能拥有强大的泛化能力，能做到“触类旁通”，以少量的数据就可完成数据训练。