领域|IEEE Fellow梅涛：视觉计算的前沿进展与挑战( 四 )

文章插图

智能导播涉及的技术比较广泛，例如：动作/事件识别、人脸识别、姿态估计、高光检测、相机视图切换等等。值得一提的是，二十年前，我在微软实习时候，导师就安排过相应的任务，但是由于数据和算力的限制，没有做到很好的效果。两年前，我们才在京东上线该功能。
元宇宙的概念很火热，京东也在数字人方面做了一些尝试。日前也凭借跨模态分析技术、多模态交互数字人技术分别斩获ACM国际多媒体顶级会议的最佳演示奖（Demo）。
传统的数字人只能进行“文字交互”，而今天的数字人希望能够模拟真人进行对话，其特点在于形象、逼真、实时反应等等。目前，数字人技术已经成功在市长热线中部署。

迈向通用AI

通用AI一直是人类的梦想，迈向通用AI的过程中，在视觉方面必须要从感知过度到认知，如此智能视觉系统才能进行决策。

文章插图

但其中会遇到很多挑战，例如鲁棒性，直接表现在自动驾驶领域，汽车相撞、识别错误等等都表明系统不够鲁棒。模型和数据偏见也是学界经常讨论的焦点，前段时间AI领域的大牛Yann LeCun在推特上因为“偏见来自数据还是来自模型”的发言被diss退网。

文章插图

认知智能和感知智能的区别主要有两点，在目标层面，传统AI希望增强人类思维并提供准确结果，而认知AI希望模仿人类行为和推理；而在能力层面，传统AI希望找到学习模式或揭示隐藏信息；而认知AI希望能够模型人类思维从而找到解决方案。显然，认知AI将来会有很多用途，例如可信系统、模型解释等等。

文章插图

实现认知AI，有三个核心问题要解决：第一，需要考虑如何对结构知识进行建模；第二，如何让模型可解释；第三，如何让系统拥有推理能力。
针对结构知识建模，学界目前已经有一些尝试，例如斯坦福大学李飞飞开发的Visual Genome数据集，华盛顿大学发布的VCR数据集等等。

文章插图

推理方面进展如何？北京通用AI研究院朱松纯教授最近在《中国工程院院刊》中发表论文称：通过对一张简单图片的分解，计算机视觉系统应该能够同时进行以下工作：1.重建3D场景估算相机参数、材料和照明条件；2.以属性、流态和关系对场景进行层次分析；3.推理智能体（如本例中的人和狗）的意图和信念；4.预测它们在时序上的行为；5.恢复不可见的元素，如水和不可观测的物体状态等。

文章插图

论文题目：Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense
论文地址：https://arxiv.org/abs/2004.09044

文章插图

最后，以gartner的一张趋势预见图结束演讲。每一个技术的开始都会经历缺口、泡沫、泡沫破灭以及谷底、理性回归等几个阶段。正如上图所示，通用AI里面的可解释性、可信任都还在爬升阶段，而计算机视觉已经到了第四阶段的尾声，这意味着未来的两三年，计算机视觉会迈向技术成熟阶段，而且会得到大规模的商用，普惠人类生活。