鲁汶大学|北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地( 三 )
【 鲁汶大学|北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地】在这个过程中,他注意到GAN,并希望利用 GAN 技术生成一个人的不同姿势,以此来帮助做人体识别的任务。深入研究后,他发现人体姿势变换也是一个很有意思的研究问题,便开始专注于研究人体姿势变换。
发表于NIPS 2017的工作“Pose Guided Person Image Generation”是马里千在博士期间的代表工作之一。这篇工作主要研究 2D 人体姿势迁移,首次定义了人体姿势变换这一问题。
文章插图
论文地址:https://arxiv.org/pdf/1705.09368.pdf自此,马里千打开了“图像内容生成”的大门。
正式转为博士生后,(非欧盟硕士到欧洲大学读博需要经历预博士时期),马里千在人体生成方向继续发力,又在 CVPR 2018 上发表了一篇通过解耦来进行图像编辑、“无中生有”的工作,即“Disentangled Person Image Generation”。
文章插图
论文地址:https://arxiv.org/pdf/1712.02621.pdfNIPS 2017的工作需要使用同一个人的不同姿势的数据(即“pair data”,配对数据)对模型进行训练,这就造成一个限制:如果从网上爬数据,那么爬到的数据很可能是一个人在一个场景上的单个姿势照片,而无法获取 Ta 在同一个场景的不同姿势照片。针对这种情况,马里千便想到使用“unpair data”(非配对数据)来进行模型训练。
新的训练方式延伸出其他的技术效果。CVPR 2018的文章提出了一种基于自监督的解耦表达人体前景、背景、姿态特征的生成式模型。模型可以将人体的不同要素(五官、手臂、脚等等)进行解耦,然后通过分别控制这些要素来进行图像编辑,而不再局限于修改输入人体的姿势。总的来说,该模型可以用于人体图像生成与编辑,样本插值,人体姿态变换,以及行人重识别。
文章插图
图注:人体图片样本插值(x1 和 x2 是真实图片)此外,他们提出一种「高斯噪声-> 特征 ->图像」的映射方式,使得模型可以分别从高斯空间采样得到对应的前景、背景、姿态。学习方法分为一阶段(解耦图像重建)与二阶段(嵌入特征映射),其中,一阶段模型可以完成对人体图像的编辑,例如变换姿态和外观。但二阶段可以从先验分布中进行采样,生成一个完全不存在的人。
除了人体识别生成,马里千的研究工作还包括场景识别生成。
人体的运动更多是动态的、非刚体的,而场景研究则聚焦于静态物体,且更多是刚体运动。比如,一辆车的形变不会太大,但人体的形变非常不规则(这也是人体识别研究的主要难点之一)。
根据场景研究的特点,马里千与团队成员从场景的3D信息入手,以进行场景视野的拓展。比如,最新发表的工作“Field-of-View Extrapolation Using Self-Attention and Uncertainty”(RAL-ICRA 2021,已申请欧洲和美国专利)可以将一个窄视频自动生成宽视频,有望应用于电影特效场景的合成:
文章插图
文章插图
- 36氪5G创新日报0112|福建省首个“5G+VR”英模会客厅正式上线;齐鲁医院健康管理中心“5G+ 5g
- 单片机|OPPO最新实验室曝光:与华中科技大学联合打造,将加速新技术研发
- 湖南|湖南着力推进5G应用发展 岳麓山大学科技城5G加速港启用
- 腾讯&复旦大学元宇宙报告,七大分类构造元宇宙生态,“元宇宙率”定义行业标准 | 智东西内参
- 显卡|这所新大学仅成立四年,就被华为选中并签约,它到底是什么来头
- 齐鲁壹点|36氪首发 | 「艾灵网络」获数千万元Pre-A+轮投资,为工业领域搭建最后一公里ICT基础设施
- 天津商业大学|科技手段助力天津应对本轮本土疫情
- 华东师范大学|证券之星APP
- 任正非:我退休以后想找一个好大学,学数学
- 大学生寒假假期规划