北大校友马里千：计算机视觉商用的下一个十年，AI 生成应占有一席之地( 三 ) 我是机器人|人类|人脸识别|老

文章插图

文章插图

【北大校友马里千：计算机视觉商用的下一个十年，AI 生成应占有一席之地】

文章插图

马里千认为，人体与场景的结合研究是必然的：场景解读可以促进人体行为理解，人体理解也能促进场景解读。比如，如果一个人的旁边有一张椅子，那么这个人的动作很可能是坐着；又或者，一个正在打篮球的人，很大概率身处在篮球场中。“我一直想做的是实现影视自动化。”马里千兴奋地说道。3生逢其时的“生成式AI”时代在马里千看来，影视自动化涵盖内容生成的各项技术，是考验AI内容生成水平的最佳平台。如果 AI 技术能够根据脚本自动生成一部影视作品，那一定非常震撼：“对我来说，从技术层面来看，影视自动化方向就代表了内容生成的终极目标。”马里千对影视自动化的构想始于2017年。当时《权利的游戏》第七季刚结束，距离HBO推出最终季还有至少一年的等待时间，于是，网友便脑洞大开，基于自己的想象力预测了一章最终季剧情走向。“后来《权游8》烂尾，大家都在说还不如按照当初预测的剧本拍一部呢。”

文章插图

图注：《权力的游戏》结局仔细分析，一部影视制品制作的各个环节，包括脚本、场景布置、台词编写、演员拍摄、人物配音等等的生成，横跨NLP、语音、CV等多个领域，每个场景所需要的技术和要求天差地别，要做到影视自动化绝非易事。但也正是这几年，AI内容生成领域产生了突飞猛进的变化，上述领域也进入了一个“生成式AI”的新时代。这一切变化可上溯到2014年，被Yan LeCunn（深度学习三巨头之一）称为“近10年机器学习领域最有趣的想法之一”的GAN的诞生。“如果没有GAN，我不会去做人体生成，其他同行也很可能不会转向内容生成一块，研究热点往生成方向的转移也不会那么迅速。”马里千解释，他是被“GAN”影响的一代人。GAN是近年来深度合成（Deep synthesis）技术的基石，最早被应用于图像生成模型领域，从图像生成模型开始，延伸出了换脸、人脸合成、语音合成、视频生成、数字虚拟人物等不同应用。它的出现，证明了算法做生成可以取得如此逼真的效果，掀起了图像生成的浪潮。

文章插图

图注：基于GAN的人脸编辑其中，2017年由Reddit网站用户“deepfakes”提出并开源的Deepfake是深度图像生成模型的一次“里程碑式”的应用。此前虽然涌现出了不少将GAN用于图像生成模型的论文，但大多数都只能算是缺乏实用价值的Demo，而Deepfake则是首次落地，开启了AI生成+大众娱乐的风口。随后的两年中，随着GAN算法的发展应用和开源项目的增多，生成式AI也进入了一个新的时代。一方面，“AI生成”成为人工智能研究的新热点，如Faceswap、FakeAPP、face2face、Avatarify等开源方法和工具性的应用不断涌现，各种脑洞大开的场景陆续浮出水面，在社交媒体上引发了一轮又一轮的关注；而开源工具又推动了深度合成工具的开发，不仅Facebook、抖音等一批亿级APP将深度合成应用于自己的应用中，更带动了一批AI初创公司开始试水这一领域。

文章插图