北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地( 三 )


北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地
文章插图


北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地
文章插图

【 北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地】
北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地
文章插图

马里千认为,人体与场景的结合研究是必然的:场景解读可以促进人体行为理解,人体理解也能促进场景解读。比如,如果一个人的旁边有一张椅子,那么这个人的动作很可能是坐着;又或者,一个正在打篮球的人,很大概率身处在篮球场中。“我一直想做的是实现影视自动化。”马里千兴奋地说道。3生逢其时的“生成式AI”时代在马里千看来,影视自动化涵盖内容生成的各项技术,是考验AI内容生成水平的最佳平台。如果 AI 技术能够根据脚本自动生成一部影视作品,那一定非常震撼:“对我来说,从技术层面来看,影视自动化方向就代表了内容生成的终极目标。”马里千对影视自动化的构想始于2017年。当时《权利的游戏》第七季刚结束,距离HBO推出最终季还有至少一年的等待时间,于是,网友便脑洞大开,基于自己的想象力预测了一章最终季剧情走向。“后来《权游8》烂尾,大家都在说还不如按照当初预测的剧本拍一部呢。”
北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地
文章插图

图注:《权力的游戏》结局仔细分析,一部影视制品制作的各个环节,包括脚本、场景布置、台词编写、演员拍摄、人物配音等等的生成,横跨NLP、语音、CV等多个领域,每个场景所需要的技术和要求天差地别,要做到影视自动化绝非易事。但也正是这几年,AI内容生成领域产生了突飞猛进的变化,上述领域也进入了一个“生成式AI”的新时代。这一切变化可上溯到2014年,被Yan LeCunn(深度学习三巨头之一)称为“近10年机器学习领域最有趣的想法之一”的GAN的诞生。“如果没有GAN,我不会去做人体生成,其他同行也很可能不会转向内容生成一块,研究热点往生成方向的转移也不会那么迅速。”马里千解释,他是被“GAN”影响的一代人。GAN是近年来深度合成(Deep synthesis)技术的基石,最早被应用于图像生成模型领域,从图像生成模型开始,延伸出了换脸、人脸合成、语音合成、视频生成、数字虚拟人物等不同应用。它的出现,证明了算法做生成可以取得如此逼真的效果,掀起了图像生成的浪潮。
北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地
文章插图

图注:基于GAN的人脸编辑其中,2017年由Reddit网站用户“deepfakes”提出并开源的Deepfake是深度图像生成模型的一次“里程碑式”的应用。此前虽然涌现出了不少将GAN用于图像生成模型的论文,但大多数都只能算是缺乏实用价值的Demo,而Deepfake则是首次落地,开启了AI生成+大众娱乐的风口。随后的两年中,随着GAN算法的发展应用和开源项目的增多,生成式AI也进入了一个新的时代。一方面,“AI生成”成为人工智能研究的新热点,如Faceswap、FakeAPP、face2face、Avatarify等开源方法和工具性的应用不断涌现,各种脑洞大开的场景陆续浮出水面,在社交媒体上引发了一轮又一轮的关注;而开源工具又推动了深度合成工具的开发,不仅Facebook、抖音等一批亿级APP将深度合成应用于自己的应用中,更带动了一批AI初创公司开始试水这一领域。
北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地
文章插图