“AI造人师”：“人均一个数字人的时代”正在到来( 二 ) “AI造人师”：“人均一个数字

《新周刊》：你觉得数字人的团队和其他技术团队有哪些区别？加入这个行业，需要具备什么特质？
李士岩：带领数字人的团队，既要考虑到技术的迭代路径，也要考虑到团队中成员的美学素养，以及对一些人体结构的了解程度。这些会直接决定我们产品做出来是不是足够生动和美观。
像我们团队中有很多人都在研究人体解剖学，研究人的三庭五眼。有些男生甚至已经把女生的各种化妆手法，比如眼线、眼影、腮红的色值，都研究得很透彻。
当然，在技术方面，它既要用到语音、语义相关的技术，也要用到CG、视觉相关的AI技术。百度是国内为数不多可以实现全链路AI能力的公司，我们在这方面有着非常丰厚的积累。所以，我们团队的人在全链路的技术上都会有一个整合。
《新周刊》：你提到了全链路的能力，现在如果想要造一个数字人出来，需要经过哪些环节？
李士岩：我们用通俗的语言来解释，就是首先要造出来一个“人” ，但这还远远不够，你要能让这个“人”做事情。有的要去当业务员，比如我们给银行做的产品，它们可以帮助客户办理业务；有的要去当主持人——我们给央视新闻提供了手语数字人；还有的，要做虚拟偶像，诸如我们熟知的“希加加”“度晓晓” 。
制造的流程一般是这样的：第一阶段，传统的操作是通过扫描真人或者手雕一个三维模型来建模，但百度智能云采用AI技术的方式，上传一张照片就能自动生成一个三维的超写实数字人。第二步需要做的事情，叫“数字人的驱动” ，就是让它能说话，能动起来。

文章图片
数字人捏脸系统。
前沿的AI技术，提升了内容制作效率，也降低了成本
《新周刊》：你进入这条赛道时，数字人的发展如何？到今天，它分别历经了哪些阶段？
李士岩：数字人的1.0特征是官方发布一个虚拟形象，再发布一个声音，各个粉丝通过这种声音软件来为这个虚拟形象创造声音作品，以此来实现虚拟人的孵化。 2.0则是在此基础上，引入了影视所用的动图技术——光学动图技术，让官方发布的数字人在“中之人”（指操纵虚拟主播进行直播的人）的驱动下，通过直播这种一对多的形式，与粉丝、观众进行互动。
第三个阶段，也就是我进入行业时的2019年左右。它的显著特征是无论在数字人的生产端，还是在数字人的消费端，由于AI相关技术的加入，变得效率更高，载体更丰富，覆盖的用户面也更广。它已经成了一种在AI技术驱动下实现“7×24小时N人N面”、低成本生产的互动形式。
《新周刊》：现在数字人行业最前沿的技术有哪些？
李士岩：最前沿的技术，主要从三个方面看。
首先，在制作人像层面，目前最顶尖的技术是通过超写实人像来实现智能建模。用传统方式做一个人像的周期是1—2个月，但通过照片建模的技术，几分钟甚至几秒钟就能够完成。
在驱动和交互上，最前沿的技术有两个：AI相关的非注意力ASR模型和利用大模型相关的对话技术。前者让语音转换文本的能力变得更为精准，后者则是对数字人的理解和反馈能力有质的提升。
在内容生产赛道里，动画数据、通过3D换脸技术进行的虚拟偶像、内容的快速生产，都是比较尖端的技术。
《新周刊》：这些前沿技术在提升内容制作效率和降低成本方面有哪些影响？
李士岩：首先，人像生产是数字人成本的最主要构成，行业里超高精的人像成本往往要50万—100万元。原来的手工方式，需要花费大量的体力劳动，外加一部分主观的创作和审美。但通过AI的训练，我们能够实现人像的自动化生产。