领域|IEEE Fellow梅涛：视觉计算的前沿进展与挑战( 三 )

文章插图

CVPR 2020：Look-into-Object: Self-supervised Structure Modeling for Object Recognition
论文地址：https://arxiv.org/abs/2003.14142
视频领域非常有挑战，当年我想借鉴ResNet，毕竟在图像识别领域它是非常有创新的网络，因为其里面包含skip level的调整。因此，当时我想把2D的CNN直接应用到3D领域。
其实，相关工作已经有人尝试，但存在一定的困难。例如Facebook发现，如果沿着xyz三个轴进行卷积，参数会爆炸，所以很难提高模型性能。因此在2015年，Facebook只设计了一个11层的3D卷积网络。

文章插图

我的尝试是基于ResNet进行3D卷积设计，但也遇到了和Facebook同样的困难，即参数爆炸。因此，在CVPR 2017年的一项工作中，我利用一个1*3*3的二维空间卷积和3*1*1的一维时域卷积来模拟常用的3*3*3三维卷积。
通过简化，相比于同样深度的二维卷积神经网络仅仅增添了一定数量的一维卷积，在参数数量、运行速度等方面并不会产生过度的增长。与此同时，由于其中的二维卷积核可以使用图像数据进行预训练，对于已标注视频数据的需求也会大大减少。目前该论文引用超过1000次，得到了行业的认可。

文章插图

CVPR 2017：Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks
论文地址：https://arxiv.org/abs/1711.10305

文章插图

其他研究领域也有很多问题有待开发。例如在3D视觉研究方面，不仅需要语义分割，还需要估计物体的姿态；在Image to Language研究中，不仅需要给定一张图片生成一段描述文字，还需要知道物体之间的空间关系语义关系。

视觉感知的应用

文章插图

AI一直被认为是改变工业界的范式，2019年PWC（麦肯锡）曾经发布过一个报告：AI对整个全球的经济的贡献，在2030年之前，每一年会是14%的提升。并且在中国，增长空间是26%。
将AI应用到工业界，基本需要满足三个条件中的任何一个：降低成本、提高效率、提升用户体验。市值万亿美金级别的公司，例如微软和苹果，其共同的特点在于企业会全面、大规模、一次性的推广AI技术。
大规模推广AI技术时，诞生了许多很有意思的应用，例如“拍照购物”，核心技术是Photo-to-search，该领域已被深耕多年，但真正能发挥的场景是电商。以京东为例，它的拍照购物准确率以经比四年前提高许多，用户转化率提升了十几倍。
另一个电商零售中的例子是“智能搭配”，其目的不仅是让AI推荐同款商品，还要让AI提供穿搭建议。例如当用户购买上衣时，AI自动搭配一个裙子或者一双鞋，并且生成一段描述，告诉用户“为何如此搭配”。该功能上线之后，其带来的点击率超过了人工搭配。

文章插图

智能导播应用也是AI比较擅长的。例如足球比赛中会有很多固定的相机，相机中的视频会传递到转播车，然后会有20~30个工作人员不断的制作视频，提供转播流，每个人看到的转播流都是相同的。所谓智能导播是指：用AI学习人类导播的方式，然后根据每个用户的喜好，输出相应的内容。喜欢足球的用户会着重推送精彩的射门、动作；喜欢球星的用户会着重推荐球员的特写，从而达到千人千面的效果。