北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地( 二 )


北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地
文章插图

图注:Luc Van Gool教授Trace实验室的主要研究方向为自动驾驶计算机视觉,因此,针对人体与场景的图像合成与理解也成为了马里千在博士阶段的两大研究方向。读博期间,马里千一共发表了8篇顶会论文,其中一作就占了6篇。“读博期间,我就喜欢做自己想做的task(任务),这会让我感觉(这些任务)是自己的亲儿子一样。自己从头规划,定技术路线,到最后把它做出来。”马里千说。刚进入实验室时,马里千做的是人体多目标跟踪与重识别。在做的过程中,他发现了一个问题:在不同场景下,模型的适应能力很差,“换一个场景,模型就废了。”这时,实验室的师兄恰巧向他介绍了GAN这项技术,他觉得很新奇,就想:“为什么不自己生成一个数据集?这样就可以用仿真的方式解决数据标注成本高昂的问题。”对GAN的兴趣驱使他转向了人体生成方向的研究。在这个过程中,他注意到GAN,并希望利用 GAN 技术生成一个人的不同姿势,以此来帮助做人体识别的任务。深入研究后,他发现人体姿势变换也是一个很有意思的研究问题,便开始专注于研究人体姿势变换。发表于NIPS 2017的工作“Pose Guided Person Image Generation”是马里千在博士期间的代表工作之一。这篇工作主要研究 2D 人体姿势迁移,首次定义了人体姿势变换这一问题。
北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地
文章插图

论文地址:https://arxiv.org/pdf/1705.09368.pdf自此,马里千打开了“图像内容生成”的大门。正式转为博士生后,(非欧盟硕士到欧洲大学读博需要经历预博士时期),马里千在人体生成方向继续发力,又在 CVPR 2018 上发表了一篇通过解耦来进行图像编辑、“无中生有”的工作,即“Disentangled Person Image Generation”。
北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地
文章插图

论文地址:https://arxiv.org/pdf/1712.02621.pdfNIPS 2017的工作需要使用同一个人的不同姿势的数据(即“pair data”,配对数据)对模型进行训练,这就造成一个限制:如果从网上爬数据,那么爬到的数据很可能是一个人在一个场景上的单个姿势照片,而无法获取 Ta 在同一个场景的不同姿势照片。针对这种情况,马里千便想到使用“unpair data”(非配对数据)来进行模型训练。新的训练方式延伸出其他的技术效果。CVPR 2018的文章提出了一种基于自监督的解耦表达人体前景、背景、姿态特征的生成式模型。模型可以将人体的不同要素(五官、手臂、脚等等)进行解耦,然后通过分别控制这些要素来进行图像编辑,而不再局限于修改输入人体的姿势。总的来说,该模型可以用于人体图像生成与编辑,样本插值,人体姿态变换,以及行人重识别。
北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地
文章插图

图注:人体图片样本插值(x1 和 x2 是真实图片)此外,他们提出一种「高斯噪声-> 特征 ->图像」的映射方式,使得模型可以分别从高斯空间采样得到对应的前景、背景、姿态。学习方法分为一阶段(解耦图像重建)与二阶段(嵌入特征映射),其中,一阶段模型可以完成对人体图像的编辑,例如变换姿态和外观。但二阶段可以从先验分布中进行采样,生成一个完全不存在的人。除了人体识别生成,马里千的研究工作还包括场景识别生成。人体的运动更多是动态的、非刚体的,而场景研究则聚焦于静态物体,且更多是刚体运动。比如,一辆车的形变不会太大,但人体的形变非常不规则(这也是人体识别研究的主要难点之一)。根据场景研究的特点,马里千与团队成员从场景的3D信息入手,以进行场景视野的拓展。比如,最新发表的工作“Field-of-View Extrapolation Using Self-Attention and Uncertainty”(RAL-ICRA 2021,已申请欧洲和美国专利)可以将一个窄视频自动生成宽视频,有望应用于电影特效场景的合成: