鲁汶大学|北大校友马里千：计算机视觉商用的下一个十年，AI 生成应占有一席之地

文章插图

导语：近几年，人工智能在国内的商业落地趋于同质化，以识别与检测为主。当人们谈论AI创业，首先想到的总是以感知技术为代表的“AI四小龙”（商汤、云从、依图、旷视）。除了感知，人工智能还有哪些商用方向？在上周推送的文章《陈启峰：在适合自己的赛道上追求速度与突破》中，我们探讨了计算机视觉的另一个潜在落地方向：内容生成。不止一位研究者相信，如果能够用AI技术降低大众的艺术创作成本，那么大家参与内容创作的热情也会提高，说不定还能改写《权游》大结局。
在推动内容生成落地的浪潮中，马里千与ZMO的小伙伴首当其冲。
作者 | 陈彩娴
编辑|刘冰一
2014年，当远在加拿大的 Ian J. GoodFellow 等人提出生成对抗网络“GAN”时，马里千正在大洋彼岸的北京大学攻读研究生，刚刚入门行人重识别。
GAN的核心理念是让两个神经网络相互竞争，一个神经网络生成接近真实的数据，另一个网络试图区分真实的数据和由生成网络生成的数据。“猫抓老鼠”的游戏不断进行，直到系统达到“平衡”，生成器创建的数据就会看起来足够真实，这时判别器只能无奈随机猜测。
图注：GAN的工作原理
由于能够生成“足够真实”的数据，随后几年，GAN在图像内容生成上的影响力日益增大，继而延伸出了基于GAN技术的30多种生成模型，包括 StyleGAN、Recycle-GAN、GauGAN等等。比如，2018年，Nvidia 开发的 StyleGAN 能够生成“不存在的人”：

文章插图

GAN的出现，让AI内容生成走入更多人的视线。除了“GAN系家族”，近年来，诸如蚂蚁呀嘿、DALL·E（如下）等生成技术也日趋成熟，昭示着内容自动生成的落地可能性。文本：穿着芭蕾舞短裙的萝卜宝宝在遛狗。
图注：“DALL·E”能够根据文本提示生成对应的图像
尽管GAN已诞生六年多，但遗憾的是，目前国内计算机视觉技术的商业应用落地仍局限于感知一块。仔细观察，国内知名的人工智能企业（如商汤、云从、旷视、依图等），他们的主要商用技术便是人脸识别。
“除了检测、识别、语义分割等，计算机视觉在中国还有其他可能的落地方向吗？”马里千也一直在思考这个问题。
随着以GAN为代表的内容生成模型队伍日渐壮大，马里千也已从刚刚入门的“AI小白”成长为在图像生成方向小有造诣的博士候选人之一。怀着对未来内容生成发展的好奇与疑问，马里千不甘于成为大厂的一枚螺丝钉，而是选择开创一番属于自己的事业。
加盟人工智能创业公司ZMO，便是马里千在内容生成创业上的第一步。
1
北大：开始人体识别研究
2013年，马里千以优秀的成绩从华南理工大学保研至北京大学，攻读计算机应用技术专业。在北大，他开始了人体感知识别的研究课题。
此前，马里千的本科专业为电子科学与技术（微电子方向），所学课程偏硬件。尽管专业成绩一直名列前茅，但马里千很早便确定“自己更喜欢研究软件应用与开发，尤其是视频与图文的特效制作”。所以，在确定保研北大后，他便毅然选择转专业，加入了刘宏教授的智能机器人开放实验室（HRI Lab），开始研究计算机视觉。

文章插图

图注：北大未名湖本科研究编程与数字图像处理的经历，与计算机视觉的基本概念有很大差距。因此，在刚进入计算机视觉领域时，马里千对技术的细分方向并不了解。在选择研究课题时，组里的方向非常多，有研究表情识别的，有研究人脸识别的，有研究动作分析的，也有研究语音和运动规划的……犹如刘姥姥进大观园，一切都觉得新奇，又眼花缭乱。