北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地


北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地
文章插图

导语:近几年,人工智能在国内的商业落地趋于同质化,以识别与检测为主。当人们谈论AI创业,首先想到的总是以感知技术为代表的“AI四小龙”(商汤、云从、依图、旷视)。除了感知,人工智能还有哪些商用方向?在上周推送的文章《陈启峰:在适合自己的赛道上追求速度与突破》中,我们探讨了计算机视觉的另一个潜在落地方向:内容生成。不止一位研究者相信,如果能够用AI技术降低大众的艺术创作成本,那么大家参与内容创作的热情也会提高,说不定还能改写《权游》大结局。在推动内容生成落地的浪潮中,马里千与ZMO的小伙伴首当其冲。作者 | 陈彩娴编辑|刘冰一2014年,当远在加拿大的 Ian J. GoodFellow 等人提出生成对抗网络“GAN”时,马里千正在大洋彼岸的北京大学攻读研究生,刚刚入门行人重识别。GAN的核心理念是让两个神经网络相互竞争,一个神经网络生成接近真实的数据,另一个网络试图区分真实的数据和由生成网络生成的数据。“猫抓老鼠”的游戏不断进行,直到系统达到“平衡”,生成器创建的数据就会看起来足够真实,这时判别器只能无奈随机猜测。图注:GAN的工作原理由于能够生成“足够真实”的数据,随后几年,GAN在图像内容生成上的影响力日益增大,继而延伸出了基于GAN技术的30多种生成模型,包括 StyleGAN、Recycle-GAN、GauGAN等等。比如,2018年,Nvidia 开发的 StyleGAN 能够生成“不存在的人”:
北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地
文章插图

GAN的出现,让AI内容生成走入更多人的视线。除了“GAN系家族”,近年来,诸如蚂蚁呀嘿、DALL·E(如下)等生成技术也日趋成熟,昭示着内容自动生成的落地可能性。文本:穿着芭蕾舞短裙的萝卜宝宝在遛狗。图注:“DALL·E”能够根据文本提示生成对应的图像尽管GAN已诞生六年多,但遗憾的是,目前国内计算机视觉技术的商业应用落地仍局限于感知一块。仔细观察,国内知名的人工智能企业(如商汤、云从、旷视、依图等),他们的主要商用技术便是人脸识别。“除了检测、识别、语义分割等,计算机视觉在中国还有其他可能的落地方向吗?”马里千也一直在思考这个问题。随着以GAN为代表的内容生成模型队伍日渐壮大,马里千也已从刚刚入门的“AI小白”成长为在图像生成方向小有造诣的博士候选人之一。怀着对未来内容生成发展的好奇与疑问,马里千不甘于成为大厂的一枚螺丝钉,而是选择开创一番属于自己的事业。加盟人工智能创业公司ZMO,便是马里千在内容生成创业上的第一步。1北大:开始人体识别研究2013年,马里千以优秀的成绩从华南理工大学保研至北京大学,攻读计算机应用技术专业。在北大,他开始了人体感知识别的研究课题。此前,马里千的本科专业为电子科学与技术(微电子方向),所学课程偏硬件。尽管专业成绩一直名列前茅,但马里千很早便确定“自己更喜欢研究软件应用与开发,尤其是视频与图文的特效制作”。所以,在确定保研北大后,他便毅然选择转专业,加入了刘宏教授的智能机器人开放实验室(HRI Lab),开始研究计算机视觉。
北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地
文章插图

图注:北大未名湖本科研究编程与数字图像处理的经历,与计算机视觉的基本概念有很大差距。因此,在刚进入计算机视觉领域时,马里千对技术的细分方向并不了解。在选择研究课题时,组里的方向非常多,有研究表情识别的,有研究人脸识别的,有研究动作分析的,也有研究语音和运动规划的……犹如刘姥姥进大观园,一切都觉得新奇,又眼花缭乱。一开始,马里千跟着实验室的一位博士师兄着手于RGB-D人体跟踪方面的研究。在拟定硕士研究课题时,他与博士师兄讨论,选择了行人重识别方向。他解释道:“行人重识别这个课题的延展性特别好,‘进可攻、退可守’。往外拓展,你可以把识别拓展到跟踪问题上,包括单摄像头跟踪与跨摄像头跟踪,进而延伸到动作识别、轨迹分析、行为分析等等。退可守就是,你可以将问题简化为学习单纯的相似性度量,比如判别两张人像图片所显示的是不是同一个人。”行人重识别的英文名为“Person Re-Identification”(缩写为“re-ID”),最早在这个方向上取得卓越成果的研究机构主要是伦敦玛丽女王大学和香港中文大学,而后引入国内。“Person”的意思是“人体”,而国内翻译成“行人”,是因为这项技术最初主要应用于监控与行人观测。硕士期间,马里千在行人重识别上的研究处于较浅显的阶段,只能算刚刚入门。他原本也没有打算读博深造,而是计划硕士毕业就去工作,也拿到了知名互联网大厂的offer。但是,2015年去腾讯优图实验室实习的经历改变了他的想法。当时,他在优图实验室担任研究实习生,主要负责调研多摄像头目标跟踪与行人重识别的相关前沿技术调研,以及评估室内ReID 算法的应用落地。在那里,马里千见识了各路大神,他们中绝大多数是博士毕业,对技术也有十分独到的见解。相比之下,马里千觉得自己作为硕士生,对技术的理解还不够深入,还有很大的成长空间。于是,他决定申请出国读博,在一个领域潜心修炼,继续提升自己的功力。2博士:打开图像内容生成的大门2016年4月份,马里千去鲁汶大学(KU Leuven)电子系攻读博士学位,师从Luc Van Gool 教授。马里千的导师Van Gool毕业于鲁汶大学,是欧洲计算机视觉研究领域的翘楚之一,功成名就后同时在苏黎世理工学院与鲁汶大学担任教授。Van Gool研究的范围十分广泛,与产业界也有密切的合作。圈内盛传Van Gool组“可能是全世界PhD工资最高的组”,马里千的PhD项目就由丰田Trace实验室资助。与美国CV研究偏重应用方向相比,欧洲CV学派基础更为扎实,更注重“识别”的机制以及之后的决策与交互。从八十年代末兴起的几何三维重建理论就是起源于欧洲,在这一波浪潮中,马里千的导师Van Gool与学生Mark Pollefeys 等因提出模约束理论(modulus constraint), 解决了分层重建中的仿射重建问题而获得1998年的马尔奖,很自然地,马里千也沿着前辈们的方向进行了扩展性的探索。