脱口秀|这届科技冬奥，就数这位北京大妞让人意想不到( 二 )

而且在脱口秀期间，除了用诙谐幽默的语言讲段子之外，冬冬还会穿插着讲解与冬奥项目有关的知识。
真是科普、搞笑两不误。
但直播间，只是冬冬工作场合之一，这不，她在冬奥会期间还参加了CCTV-5《体坛英豪》节目的录制。
在其中的一期节目中，短道速滑运动员武大靖，就成了她的采访对象。

文章插图
现场，冬冬还请求武大靖指导一下她最新学会的短道速滑动作。
在瞬间变装后，便在武大靖面前开始展示：

文章插图
冬冬问武大靖：“你知道我的动作是跟谁学的吗？”
武大靖自信地回答道：“我呗，肯定是学我呗。”
而后，冬冬和武大靖展开了轻松愉悦的快问快答。
冬冬：这届冬奥会最难忘的时刻是？
武大靖：我们获得首金的时候。
冬冬：头盔的图案为什么选择华夏战神孙大圣？
武大靖：因为它的寓意很好，孙大圣的感觉就是拼命吧。
冬冬：保温杯里泡的是什么？
武大靖：没泡枸杞，泡的是正常的水。
冬冬：金墩墩拿回家，会放在哪里？
武大靖：放保险箱里，其他人说已经联盟要弄我。
……
一番交谈还挺自然，冬冬模仿真人采访人员有模有样。
那么一个AI数字人，能够做到如此的实时和拟真，接下来的一个问题便是：
冬冬，是怎么炼成的？随着数字人冬冬在网上的走红，其背后的技术能力也逐渐浮现了出来。
据了解，冬冬之所以能够像人类一样自然，主要得益于阿里巴巴数字人技术团队多年来在此的技术积累。
首先，是在外观的自然度方面。
要让虚拟人在说话过程中做到自然，就需得像人类一样，把嘴、表情、肢体动作等等做到统一、协调。
冬冬背后的技术所采取的策略，则是AI实时驱动。
例如在“嘴型驱动”上，冬冬可以做到播报的语音和嘴型对应；并且在说话过程中，会融合适合的面部表情，比如微笑、兴奋、生气、疑问等。
除此之外，冬冬的身子，即肢体动作，也会配合内容而发生改变，例如挥手、鼓掌等等。

文章插图
而且为了在视觉上达到更加逼真的效果，阿里采用了Unity HDRP高清管线来实时渲染拟真人级别的数字人。
包括实时的模拟自然光照、动力学（比如服装、头发的摆动）等效果。
但若仅仅是停留在外表，那要跟人类相比，还是差点意思的。
要想在直播间里和用户长时间自主互动，流畅对话是一个必要条件。
多模态双工互动能力（MMDI，multi-mode duplex interaction），便是其采取的策略。
具体而言，是在深度融合了多模态理解和双工对话管理技术的基础上，构建了一套全智能驱动的数字人双向互动能力。
这让数字人具备了像人一样边说边听的技能，即使被打断也可以继续顺畅沟通。
而且声音、表情、动作在表达时能够自然地整合在一起。
但光是“形象逼真”、“可以互动”，还是不够的。如何能够让用户觉得冬冬言之有物，内容扎实丰富，是非常重要的。
这就需要冬冬具备“智能脚本生成”（AI Script Generation，AISG）的能力。
为此，阿里数字人技术在深度融合预训练和知识图谱基础上，构建了一套全智能的可控脚本生成方案。
核心就是将以往专家撰写脚本的方式，转变成了机器自动撰写。
更具体一点，AI算法模型会根据“冬奥知识”或“喜剧写作公式”，展开一个自主学习的过程。