领域|IEEE Fellow梅涛:视觉计算的前沿进展与挑战( 四 )
文章插图
元宇宙的概念很火热,京东也在数字人方面做了一些尝试。日前也凭借跨模态分析技术、多模态交互数字人技术分别斩获ACM国际多媒体顶级会议的最佳演示奖(Demo)。
传统的数字人只能进行“文字交互”,而今天的数字人希望能够模拟真人进行对话,其特点在于形象、逼真、实时反应等等。目前,数字人技术已经成功在市长热线中部署。
文章插图
但其中会遇到很多挑战,例如鲁棒性,直接表现在自动驾驶领域,汽车相撞、识别错误等等都表明系统不够鲁棒。模型和数据偏见也是学界经常讨论的焦点,前段时间AI领域的大牛Yann LeCun在推特上因为“偏见来自数据还是来自模型”的发言被diss退网。
文章插图
认知智能和感知智能的区别主要有两点,在目标层面,传统AI希望增强人类思维并提供准确结果,而认知AI希望模仿人类行为和推理;而在能力层面,传统AI希望找到学习模式或揭示隐藏信息;而认知AI希望能够模型人类思维从而找到解决方案。显然,认知AI将来会有很多用途,例如可信系统、模型解释等等。
文章插图
实现认知AI,有三个核心问题要解决:第一,需要考虑如何对结构知识进行建模;第二,如何让模型可解释;第三,如何让系统拥有推理能力。
针对结构知识建模,学界目前已经有一些尝试,例如斯坦福大学李飞飞开发的Visual Genome数据集,华盛顿大学发布的VCR数据集等等。
文章插图
推理方面进展如何?北京通用AI研究院朱松纯教授最近在《中国工程院院刊》中发表论文称:通过 对一张简单图片的分解,计算机视觉系统应该能够同时进行以下工作:1.重建3D场景估算相机参数、材料和照明条件;2.以属性、流态和关系对场景进行层次分析;3.推理智能体(如本例中的人和狗)的意图和信念;4.预测它们在时序上的行为;5.恢复不可见的元素,如水和不可观测的物体状态等。
文章插图
论文地址:https://arxiv.org/abs/2004.09044
文章插图
最后,以gartner的一张趋势预见图结束演讲。每一个技术的开始都会经历缺口、泡沫、泡沫破灭以及谷底、理性回归等几个阶段。正如上图所示,通用AI里面的可解释性、可信任都还在爬升阶段,而计算机视觉已经到了第四阶段的尾声,这意味着未来的两三年,计算机视觉会迈向技术成熟阶段,而且会得到大规模的商用,普惠人类生活。
- ios|华为迎来新里程碑,在新领域旗开得胜!
- Google|全球游戏领域的标杆,MSI&AMD把事情做得很漂亮
- 6g|港媒:中国又在这一领域让美国寝食难安
- 齐鲁壹点|36氪首发 | 「艾灵网络」获数千万元Pre-A+轮投资,为工业领域搭建最后一公里ICT基础设施
- 营收|富士康多领域逢劲敌,比亚迪已夺下4次销冠,苹果订单也被抢走3%
- Apple Watch|Surface Go 3评测:轻量办公领域一骑绝尘
- 1月10日|lg新能源ceo喊话行业巨头宁德时代在中国动力电池领域的霸主
- 读特客户端?深圳新闻网2022年1月14日讯(记者 罗瑜 实习生 韦秋颜 )1月6日|易星标技术荣获集成电路领域“创芯新锐奖”
- 2021年IT影响中国:云米获得“人工智能领域影响力企业”荣誉
- 进步奖|招标股份董秘回复:公司研发的生态环境数字孪生平台在下游应用领域更多基于客户自身需求