北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地( 四 )



图注:俄罗斯程序员Ali Aliev用Avatarify软件把自己的头像换成了马斯克在技术发展的同时,马里千的研究也同样处于这一领域的最前沿:他的研究内容更多是围绕基于条件的生成模型,同时,他的研究应用不仅局限于人脸,还包括人体。人体比人脸的形变更大,也更难驾驭。比如,在2019年的工作“Exemplar Guided Unsupervised Image-to-Image Translation with Semantic Consistency”(ICLR 2019)中,他利用 GAN 的无监督能力来帮助无配对数据学习;在“Disentangle Person Image Generation”一文中,他提出的二阶段思想,也是为了解决当时 GAN 技术中训练效果不佳的问题,先用第一阶段的模型学习人体构造,第二阶段是采样噪点至特征空间。“3D合成技术将是下一轮的重点。”马里千说。此外,马里千还注意到,在学术界,人工智能自动生成多媒体内容(AI-generated Media)的技术渐趋成熟,文字、音乐、图像、语音、视频等均可由 AI 自动完成;而在单一的音频、图像生成外,深度生成技术正在朝着综合性方向发展,他曾设想的“影视自动化”,此时看起来已经不再是遥不可及的目标。内容自动生成正在通过越来越多的计算机引用程序和服务走向商业化。如果仔细观察,我们会发现,AI 内容生成已经通过网络与我们近距离接触:虚拟主播、数字试穿、影视后期制作、语音合成、换脸、老照片修复……生逢其时,马里千对层出不穷的 AI 内容生成方式感到震撼。他认为,AI内容自动生成将成为新的内容创作动力,促进高质量的多媒体内容输出。而他,不想错过这个时代。腾讯研究院与腾讯优图实验室共同发布《AI生成内容发展报告2020——“深度合成”(deep synthesis)商业化元年》指出,深度学习内容合成有发展趋势之一,便是:面部合成之外,全身合成将成为新热点。目前,基于人脸、人体、场景的图像内容自动生成仍处于起步阶段。尽管国外有以 synthesia.io 等致力于内容自动生成落地的创业代表,但对比国内外的用户市场,马里千认为,国内的大环境更乐观:“我觉得国内的用户市场非常活跃,抖音、淘宝、B站等线上平台比国外发展更好。”4ZMO:下一片天空博士即将毕业之际,相比去大厂,马里千更想创业。这与他“更想引领、而非追随”的性格有关。他回忆,硕博期间,导师对他的指导均是从非常高的层面给予意见,保证他在大方向上不会“走歪”,而做研究时,从定方向、定技术路线,到最后实现,基本都是由他独自完成。因此,进入大厂可能当螺丝钉的状态显然不是他想要的:“人家的整体路线已经非常成熟,进去的话很可能只是做某个环节的改进。”读博期间,实验室的创业氛围也影响了他。马里千介绍,博导 Luc Van Gool 本人就身兼数职,创业热情非常高,投资了许多创业公司,“老师看问题的主要角度之一也是从‘这项工作有没有用’出发”;实验室里的许多成员也是边读博边在创业公司担任CTO,或者毕业后开一个创业公司,围绕博士期间的研究课题做商业化落地。2019年在 Adobe Research 实习时,马里千及团队曾提出一种叫做“Unselfie(非自拍)”的图片转换方法,通过识别目标的姿势并生成身体的纹理,在给定的自拍背景中完善与合成人物,“自拍”秒变“他拍”:
北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地
文章插图

对马里千来说,这项工作更大的意义不是技术上的突破,而是他首次将用户需求与研究内容结合。比如,Unselfie 工作不仅可以用于多媒体自拍图片转换,还能用于修改证件照等。马里千一直追求应用型研究,即“格物致知”。导师的实干精神,以及之前“Unselfie”的经验,促使马里千形成了需求驱动的研究意识。在他看来,创业是一个将研究落地的良好途径,因为依托市场,他可以真正进行应用型研究:“不再是在一个封闭的环境里闭门造车,做一些可能自己认为很酷、但别人根本不买单的产品。”市场会为了AI内容自动生成而买单吗?马里千也想过这个问题。除了马里千,实验室里的大部分同事都是研究识别、分割、机器学习或机器人,与他的研究方向最接近的,可能是一位叫贾旭的师兄。贾旭现任大连理工大学人工智能学院副教授,此前曾做过将人的侧脸转为正脸的研究,以及场景预测,马里千与他也一直有在合作。之前有一次,马里千与一位做模型压缩的同事聊天,他提议可以做生成类模型的压缩,同事反问:“生成模型有什么用?”他说,应用很多呀,可以做图像编辑、数据增广等等,但这个答案没有引起同事的兴趣。还有一次,在一个学术研讨会上,台上的演讲者正在分享一个从图像到图像的翻译工作,台下的观众问:“这个有什么用?”报告者尴尬地说了一句:“娱乐(Entertainment)。”在思考研究图像合成的应用意义时,他针对人体合成与场景合成在数据增量的应用进行了探索,希望图像合成的落地能够不仅局限于娱乐与图像编辑。后来,在接触工业界的过程中,马里千了解到,其实图像合成有许多潜在应用,比如Codec Avastar可以用来远程交流,电商、视频网站、VR/AR等技术中的内容生成也会用到图像合成。想法的落地,需要“天时、地利、人和”。去年3月,在与朋友张诗莹等人深入探讨后,他们一致认为,在多媒体时代,图像/视频内容自动生成是未来的趋势。如果人只是提供一个创意,让 GAN、DALL·E等生成模型自动生成内容,那么不仅可以降低内容的生产门槛,还能提高生成的效率。“多媒体内容的制作成本非常高,比如一条抖音短视频,要有创意,有后期制作,还有演员、摄影师等等。而当你投入很大的成本去拍一条视频时,你并不能确保你的视频能够吸引到很大的流量。”在这种情况下,AI 自动生成技术无疑能大大降低创作的时间和金钱成本,让创作者只要给出最核心的idea、便能看到 AI 生成的优质内容,减少投入的成本和风险。一拍即合后,ZMO.AI应运而生,成立不到一个月,就拿到顶级风险投资机构GSR Ventors 金沙江创投和 GGV 纪源资本上千万的融资金额,估值近亿。ZMO的落地重心是打造世界上最前沿的人工智能的内容生成引擎:从一张简单的衣服照片,或是一句文字的描述,就可以直接生成以假乱真的2D效果图或者视频。他们坚信未来的世界万物皆可生成,这将彻底重塑人类生产内容的方式,颠覆传统互联网内容生成的底层逻辑。目前,ZMO在发展的第一阶段,便已能利用算法与数据,降低多媒体内容的生产成本,帮助诸多头部电商实现降本增效。张诗莹谈道:“信息时代,我们缺的不是内容,而是有差异化的高质量内容。从GAN的诞生至今,AI在内容生成方面的技术发展已渐趋成熟,很大希望成为AI商用的下一个风口。”做内容生成,你“GAN”吗?当人脸识别、产品瑕疵检测等应用广泛落地时,人们也逐渐将对 AI 感知技术的关注转向其他领域,比如认知智能。但马里千认为,在 AI 的下一个十年里,内容生成应占有一席之地。相比赋予机器知识与推理能力的漫长道路,让机器执行人类的概念与想法似乎更简单,尤其是在图像与视频的内容编辑上。除了老照片修复、换脸、换装等简单应用,如果计算机视觉的深度合成技术能够用于大脑画面的还原,比如自己写一个《权力的游戏》大结局剧本,合成一部只属于自己的电视剧,那么人人都有成为导演的机会。这是马里千的梦想,也可能是你的梦想。在采访的最后,我们问马里千,他如何看待ZMO的未来。对于这个问题,马里千没有正面回答,只给了一句意味深长的感慨:“不要忘了,像视觉四小龙的崛起,也仅仅是这几年的事。”你与未来的距离,只差一封求职信:由于微信公众号试行乱序推送,您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道, 请将“AI科技评论”设为星标账号,以及常点文末右下角的“在看”。