鲁汶大学|北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地





鲁汶大学|北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地
文章插图

导语:近几年,人工智能在国内的商业落地趋于同质化,以识别与检测为主。当人们谈论AI创业,首先想到的总是以感知技术为代表的“AI四小龙”(商汤、云从、依图、旷视)。除了感知,人工智能还有哪些商用方向?在上周推送的文章《陈启峰:在适合自己的赛道上追求速度与突破》中,我们探讨了计算机视觉的另一个潜在落地方向:内容生成。不止一位研究者相信,如果能够用AI技术降低大众的艺术创作成本,那么大家参与内容创作的热情也会提高,说不定还能改写《权游》大结局。
在推动内容生成落地的浪潮中,马里千与ZMO的小伙伴首当其冲。
作者 | 陈彩娴
编辑|刘冰一
2014年,当远在加拿大的 Ian J. GoodFellow 等人提出生成对抗网络“GAN”时,马里千正在大洋彼岸的北京大学攻读研究生,刚刚入门行人重识别。
GAN的核心理念是让两个神经网络相互竞争,一个神经网络生成接近真实的数据,另一个网络试图区分真实的数据和由生成网络生成的数据。“猫抓老鼠”的游戏不断进行,直到系统达到“平衡”,生成器创建的数据就会看起来足够真实,这时判别器只能无奈随机猜测。
图注:GAN的工作原理
由于能够生成“足够真实”的数据,随后几年,GAN在图像内容生成上的影响力日益增大,继而延伸出了基于GAN技术的30多种生成模型,包括 StyleGAN、Recycle-GAN、GauGAN等等。比如,2018年,Nvidia 开发的 StyleGAN 能够生成“不存在的人”:




鲁汶大学|北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地
文章插图

GAN的出现,让AI内容生成走入更多人的视线。除了“GAN系家族”,近年来,诸如蚂蚁呀嘿、DALL·E(如下)等生成技术也日趋成熟,昭示着内容自动生成的落地可能性。文本:穿着芭蕾舞短裙的萝卜宝宝在遛狗。
图注:“DALL·E”能够根据文本提示生成对应的图像
尽管GAN已诞生六年多,但遗憾的是,目前国内计算机视觉技术的商业应用落地仍局限于感知一块。仔细观察,国内知名的人工智能企业(如商汤、云从、旷视、依图等),他们的主要商用技术便是人脸识别。
“除了检测、识别、语义分割等,计算机视觉在中国还有其他可能的落地方向吗?”马里千也一直在思考这个问题。
随着以GAN为代表的内容生成模型队伍日渐壮大,马里千也已从刚刚入门的“AI小白”成长为在图像生成方向小有造诣的博士候选人之一。怀着对未来内容生成发展的好奇与疑问,马里千不甘于成为大厂的一枚螺丝钉,而是选择开创一番属于自己的事业。
加盟人工智能创业公司ZMO,便是马里千在内容生成创业上的第一步。
1
北大:开始人体识别研究
2013年,马里千以优秀的成绩从华南理工大学保研至北京大学,攻读计算机应用技术专业。在北大,他开始了人体感知识别的研究课题。
此前,马里千的本科专业为电子科学与技术(微电子方向),所学课程偏硬件。尽管专业成绩一直名列前茅,但马里千很早便确定“自己更喜欢研究软件应用与开发,尤其是视频与图文的特效制作”。所以,在确定保研北大后,他便毅然选择转专业,加入了刘宏教授的智能机器人开放实验室(HRI Lab),开始研究计算机视觉。




鲁汶大学|北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地
文章插图

图注:北大未名湖本科研究编程与数字图像处理的经历,与计算机视觉的基本概念有很大差距。因此,在刚进入计算机视觉领域时,马里千对技术的细分方向并不了解。在选择研究课题时,组里的方向非常多,有研究表情识别的,有研究人脸识别的,有研究动作分析的,也有研究语音和运动规划的……犹如刘姥姥进大观园,一切都觉得新奇,又眼花缭乱。