“AI造人师”:“人均一个数字人的时代”正在到来( 二 )


《新周刊》:你觉得数字人的团队和其他技术团队有哪些区别?加入这个行业 , 需要具备什么特质?
李士岩:带领数字人的团队 , 既要考虑到技术的迭代路径 , 也要考虑到团队中成员的美学素养 , 以及对一些人体结构的了解程度 。 这些会直接决定我们产品做出来是不是足够生动和美观 。
像我们团队中有很多人都在研究人体解剖学 , 研究人的三庭五眼 。 有些男生甚至已经把女生的各种化妆手法 , 比如眼线、眼影、腮红的色值 , 都研究得很透彻 。
当然 , 在技术方面 , 它既要用到语音、语义相关的技术 , 也要用到CG、视觉相关的AI技术 。 百度是国内为数不多可以实现全链路AI能力的公司 , 我们在这方面有着非常丰厚的积累 。 所以 , 我们团队的人在全链路的技术上都会有一个整合 。
《新周刊》:你提到了全链路的能力 , 现在如果想要造一个数字人出来 , 需要经过哪些环节?
李士岩:我们用通俗的语言来解释 , 就是首先要造出来一个“人” , 但这还远远不够 , 你要能让这个“人”做事情 。 有的要去当业务员 , 比如我们给银行做的产品 , 它们可以帮助客户办理业务;有的要去当主持人——我们给央视新闻提供了手语数字人;还有的 , 要做虚拟偶像 , 诸如我们熟知的“希加加”“度晓晓” 。
制造的流程一般是这样的:第一阶段 , 传统的操作是通过扫描真人或者手雕一个三维模型来建模 , 但百度智能云采用AI技术的方式 , 上传一张照片就能自动生成一个三维的超写实数字人 。 第二步需要做的事情 , 叫“数字人的驱动” , 就是让它能说话 , 能动起来 。
“AI造人师”:“人均一个数字人的时代”正在到来
文章图片
数字人捏脸系统 。
前沿的AI技术 , 提升了内容制作效率 , 也降低了成本
《新周刊》:你进入这条赛道时 , 数字人的发展如何?到今天 , 它分别历经了哪些阶段?
李士岩:数字人的1.0特征是官方发布一个虚拟形象 , 再发布一个声音 , 各个粉丝通过这种声音软件来为这个虚拟形象创造声音作品 , 以此来实现虚拟人的孵化 。 2.0则是在此基础上 , 引入了影视所用的动图技术——光学动图技术 , 让官方发布的数字人在“中之人”(指操纵虚拟主播进行直播的人)的驱动下 , 通过直播这种一对多的形式 , 与粉丝、观众进行互动 。
第三个阶段 , 也就是我进入行业时的2019年左右 。 它的显著特征是无论在数字人的生产端 , 还是在数字人的消费端 , 由于AI相关技术的加入 , 变得效率更高 , 载体更丰富 , 覆盖的用户面也更广 。 它已经成了一种在AI技术驱动下实现“7×24小时N人N面”、低成本生产的互动形式 。
《新周刊》:现在数字人行业最前沿的技术有哪些?
李士岩:最前沿的技术 , 主要从三个方面看 。
首先 , 在制作人像层面 , 目前最顶尖的技术是通过超写实人像来实现智能建模 。 用传统方式做一个人像的周期是1—2个月 , 但通过照片建模的技术 , 几分钟甚至几秒钟就能够完成 。
在驱动和交互上 , 最前沿的技术有两个:AI相关的非注意力ASR模型和利用大模型相关的对话技术 。 前者让语音转换文本的能力变得更为精准 , 后者则是对数字人的理解和反馈能力有质的提升 。
在内容生产赛道里 , 动画数据、通过3D换脸技术进行的虚拟偶像、内容的快速生产 , 都是比较尖端的技术 。
《新周刊》:这些前沿技术在提升内容制作效率和降低成本方面有哪些影响?
李士岩:首先 , 人像生产是数字人成本的最主要构成 , 行业里超高精的人像成本往往要50万—100万元 。 原来的手工方式 , 需要花费大量的体力劳动 , 外加一部分主观的创作和审美 。 但通过AI的训练 , 我们能够实现人像的自动化生产 。