鲁汶大学|北大校友马里千:计算机视觉商用的下一个十年,AI 生成应占有一席之地( 四 )
文章插图
马里千认为,人体与场景的结合研究是必然的:场景解读可以促进人体行为理解,人体理解也能促进场景解读。比如,如果一个人的旁边有一张椅子,那么这个人的动作很可能是坐着;又或者,一个正在打篮球的人,很大概率身处在篮球场中。“我一直想做的是实现影视自动化。”马里千兴奋地说道。
3
生逢其时的“生成式AI”时代
在马里千看来,影视自动化涵盖内容生成的各项技术,是考验AI内容生成水平的最佳平台。如果 AI 技术能够根据脚本自动生成一部影视作品,那一定非常震撼:“对我来说,从技术层面来看,影视自动化方向就代表了内容生成的终极目标。”
马里千对影视自动化的构想始于2017年。当时《权利的游戏》第七季刚结束,距离HBO推出最终季还有至少一年的等待时间,于是,网友便脑洞大开,基于自己的想象力预测了一章最终季剧情走向。
“后来《权游8》烂尾,大家都在说还不如按照当初预测的剧本拍一部呢。”
文章插图
图注:《权力的游戏》结局仔细分析,一部影视制品制作的各个环节,包括脚本、场景布置、台词编写、演员拍摄、人物配音等等的生成,横跨NLP、语音、CV等多个领域,每个场景所需要的技术和要求天差地别,要做到影视自动化绝非易事。
但也正是这几年,AI内容生成领域产生了突飞猛进的变化,上述领域也进入了一个“生成式AI”的新时代。
这一切变化可上溯到2014年,被Yan LeCunn(深度学习三巨头之一)称为“近10年机器学习领域最有趣的想法之一”的GAN的诞生。
“如果没有GAN,我不会去做人体生成,其他同行也很可能不会转向内容生成一块,研究热点往生成方向的转移也不会那么迅速。”马里千解释,他是被“GAN”影响的一代人。
GAN是近年来深度合成(Deep synthesis)技术的基石,最早被应用于图像生成模型领域,从图像生成模型开始,延伸出了换脸、人脸合成、语音合成、视频生成、数字虚拟人物等不同应用。它的出现,证明了算法做生成可以取得如此逼真的效果,掀起了图像生成的浪潮。
文章插图
图注:基于GAN的人脸编辑其中,2017年由Reddit网站用户“deepfakes”提出并开源的Deepfake是深度图像生成模型的一次“里程碑式”的应用。此前虽然涌现出了不少将GAN用于图像生成模型的论文,但大多数都只能算是缺乏实用价值的Demo,而Deepfake则是首次落地,开启了AI生成+大众娱乐的风口。
随后的两年中,随着GAN算法的发展应用和开源项目的增多,生成式AI也进入了一个新的时代。一方面,“AI生成”成为人工智能研究的新热点,如Faceswap、FakeAPP、face2face、Avatarify等开源方法和工具性的应用不断涌现,各种脑洞大开的场景陆续浮出水面,在社交媒体上引发了一轮又一轮的关注;而开源工具又推动了深度合成工具的开发,不仅Facebook、抖音等一批亿级APP将深度合成应用于自己的应用中,更带动了一批AI初创公司开始试水这一领域。
文章插图
图注:俄罗斯程序员Ali Aliev用Avatarify软件把自己的头像换成了马斯克在技术发展的同时,马里千的研究也同样处于这一领域的最前沿:他的研究内容更多是围绕基于条件的生成模型,同时,他的研究应用不仅局限于人脸,还包括人体。人体比人脸的形变更大,也更难驾驭。
- 36氪5G创新日报0112|福建省首个“5G+VR”英模会客厅正式上线;齐鲁医院健康管理中心“5G+ 5g
- 单片机|OPPO最新实验室曝光:与华中科技大学联合打造,将加速新技术研发
- 湖南|湖南着力推进5G应用发展 岳麓山大学科技城5G加速港启用
- 腾讯&复旦大学元宇宙报告,七大分类构造元宇宙生态,“元宇宙率”定义行业标准 | 智东西内参
- 显卡|这所新大学仅成立四年,就被华为选中并签约,它到底是什么来头
- 齐鲁壹点|36氪首发 | 「艾灵网络」获数千万元Pre-A+轮投资,为工业领域搭建最后一公里ICT基础设施
- 天津商业大学|科技手段助力天津应对本轮本土疫情
- 华东师范大学|证券之星APP
- 任正非:我退休以后想找一个好大学,学数学
- 大学生寒假假期规划