鲁汶大学|北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地( 五 )


比如,在2019年的工作“Exemplar Guided Unsupervised Image-to-Image Translation with Semantic Consistency”(ICLR 2019)中,他利用 GAN 的无监督能力来帮助无配对数据学习;在“Disentangle Person Image Generation”一文中,他提出的二阶段思想,也是为了解决当时 GAN 技术中训练效果不佳的问题,先用第一阶段的模型学习人体构造,第二阶段是采样噪点至特征空间。
“3D合成技术将是下一轮的重点。”马里千说。
此外,马里千还注意到,在学术界,人工智能自动生成多媒体内容(AI-generated Media)的技术渐趋成熟,文字、音乐、图像、语音、视频等均可由 AI 自动完成;而在单一的音频、图像生成外,深度生成技术正在朝着综合性方向发展,他曾设想的“影视自动化”,此时看起来已经不再是遥不可及的目标。
内容自动生成正在通过越来越多的计算机引用程序和服务走向商业化。如果仔细观察,我们会发现,AI 内容生成已经通过网络与我们近距离接触:虚拟主播、数字试穿、影视后期制作、语音合成、换脸、老照片修复……
生逢其时,马里千对层出不穷的 AI 内容生成方式感到震撼。他认为,AI内容自动生成将成为新的内容创作动力,促进高质量的多媒体内容输出。而他,不想错过这个时代。
腾讯研究院与腾讯优图实验室共同发布《AI生成内容发展报告2020——“深度合成”(deep synthesis)商业化元年》指出,深度学习内容合成有发展趋势之一,便是:面部合成之外,全身合成将成为新热点。
目前,基于人脸、人体、场景的图像内容自动生成仍处于起步阶段。尽管国外有以 synthesia.io 等致力于内容自动生成落地的创业代表,但对比国内外的用户市场,马里千认为,国内的大环境更乐观:“我觉得国内的用户市场非常活跃,抖音、淘宝、B站等线上平台比国外发展更好。”
4
ZMO:下一片天空
博士即将毕业之际,相比去大厂,马里千更想创业。
这与他“更想引领、而非追随”的性格有关。他回忆,硕博期间,导师对他的指导均是从非常高的层面给予意见,保证他在大方向上不会“走歪”,而做研究时,从定方向、定技术路线,到最后实现,基本都是由他独自完成。因此,进入大厂可能当螺丝钉的状态显然不是他想要的:“人家的整体路线已经非常成熟,进去的话很可能只是做某个环节的改进。”
读博期间,实验室的创业氛围也影响了他。马里千介绍,博导 Luc Van Gool 本人就身兼数职,创业热情非常高,投资了许多创业公司,“老师看问题的主要角度之一也是从‘这项工作有没有用’出发”;实验室里的许多成员也是边读博边在创业公司担任CTO,或者毕业后开一个创业公司,围绕博士期间的研究课题做商业化落地。
2019年在 Adobe Research 实习时,马里千及团队曾提出一种叫做“Unselfie(非自拍)”的图片转换方法,通过识别目标的姿势并生成身体的纹理,在给定的自拍背景中完善与合成人物,“自拍”秒变“他拍”:




鲁汶大学|北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地
文章插图

对马里千来说,这项工作更大的意义不是技术上的突破,而是他首次将用户需求与研究内容结合。比如,Unselfie 工作不仅可以用于多媒体自拍图片转换,还能用于修改证件照等。马里千一直追求应用型研究,即“格物致知”。导师的实干精神,以及之前“Unselfie”的经验,促使马里千形成了需求驱动的研究意识。在他看来,创业是一个将研究落地的良好途径,因为依托市场,他可以真正进行应用型研究:“不再是在一个封闭的环境里闭门造车,做一些可能自己认为很酷、但别人根本不买单的产品。”