领域|IEEE Fellow梅涛:视觉计算的前沿进展与挑战( 四 )


领域|IEEE Fellow梅涛:视觉计算的前沿进展与挑战
文章插图
智能导播涉及的技术比较广泛,例如:动作/事件识别、人脸识别、姿态估计、高光检测、相机视图切换等等。值得一提的是,二十年前,我在微软实习时候,导师就安排过相应的任务,但是由于数据和算力的限制,没有做到很好的效果。两年前,我们才在京东上线该功能。
元宇宙的概念很火热,京东也在数字人方面做了一些尝试。日前也凭借跨模态分析技术、多模态交互数字人技术分别斩获ACM国际多媒体顶级会议的最佳演示奖(Demo)。
传统的数字人只能进行“文字交互”,而今天的数字人希望能够模拟真人进行对话,其特点在于形象、逼真、实时反应等等。目前,数字人技术已经成功在市长热线中部署。
3

迈向通用AI
通用AI一直是人类的梦想,迈向通用AI的过程中,在视觉方面必须要从感知过度到认知,如此智能视觉系统才能进行决策。
领域|IEEE Fellow梅涛:视觉计算的前沿进展与挑战
文章插图

但其中会遇到很多挑战,例如鲁棒性,直接表现在自动驾驶领域,汽车相撞、识别错误等等都表明系统不够鲁棒。模型和数据偏见也是学界经常讨论的焦点,前段时间AI领域的大牛Yann LeCun在推特上因为“偏见来自数据还是来自模型”的发言被diss退网。
领域|IEEE Fellow梅涛:视觉计算的前沿进展与挑战
文章插图

认知智能和感知智能的区别主要有两点,在目标层面,传统AI希望增强人类思维并提供准确结果,而认知AI希望模仿人类行为和推理;而在能力层面,传统AI希望找到学习模式或揭示隐藏信息;而认知AI希望能够模型人类思维从而找到解决方案。显然,认知AI将来会有很多用途,例如可信系统、模型解释等等。
领域|IEEE Fellow梅涛:视觉计算的前沿进展与挑战
文章插图

实现认知AI,有三个核心问题要解决:第一,需要考虑如何对结构知识进行建模;第二,如何让模型可解释;第三,如何让系统拥有推理能力。
针对结构知识建模,学界目前已经有一些尝试,例如斯坦福大学李飞飞开发的Visual Genome数据集,华盛顿大学发布的VCR数据集等等。
领域|IEEE Fellow梅涛:视觉计算的前沿进展与挑战
文章插图

推理方面进展如何?北京通用AI研究院朱松纯教授最近在《中国工程院院刊》中发表论文称:通过 对一张简单图片的分解,计算机视觉系统应该能够同时进行以下工作:1.重建3D场景估算相机参数、材料和照明条件;2.以属性、流态和关系对场景进行层次分析;3.推理智能体(如本例中的人和狗)的意图和信念;4.预测它们在时序上的行为;5.恢复不可见的元素,如水和不可观测的物体状态等。
领域|IEEE Fellow梅涛:视觉计算的前沿进展与挑战
文章插图
论文题目:Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense
论文地址:https://arxiv.org/abs/2004.09044
领域|IEEE Fellow梅涛:视觉计算的前沿进展与挑战
文章插图

最后,以gartner的一张趋势预见图结束演讲。每一个技术的开始都会经历缺口、泡沫、泡沫破灭以及谷底、理性回归等几个阶段。正如上图所示,通用AI里面的可解释性、可信任都还在爬升阶段,而计算机视觉已经到了第四阶段的尾声,这意味着未来的两三年,计算机视觉会迈向技术成熟阶段,而且会得到大规模的商用,普惠人类生活。