中国队夺金幕后的“AI手语翻译官”：初次上岗，手语可懂度超90％( 二 ) 机器之心原创作者：蛋酱有了

打造3D手语数智人「聆语」有何挑战？
正如命名「聆语」所示，腾讯这款3D手语数智人是听障人士真正可懂的手语数字人。相比于其他的数智人，腾讯的手语数智人在技术上具备多项优势。
对于观众来说，如果数字人在表达时出现神态和动作僵硬不自然的问题，那么观感就会大打折扣。
在外观方面，「聆语」依托腾讯领先的3D重光照扫描还原、面部肌肉驱动、表情肢体手势捕捉等技术，生成了高度还原真人发肤、动作自然生动的数字人。
笑意盈盈、一袭清爽蓝色套装的「聆语」最初亮相，就显著提升了手语播报的真实感与亲切感：

文章图片
更具挑战性的是，与一般的口头表达相比，手语是一套视觉语言，存在语序、表情和口型呈现等诸多问题，更不用说在表达过程中手势切换的流畅连贯性了。这些问题都要求AI手语主播需要具备较高的手语表达能力和精准连贯的手语呈现能力。
如何让「聆语」像专业的手语主持人一样，实时、精准地传递解说内容，有效提高手语表达可懂度？
在手语动作方面，为了让「聆语」实现流畅的交互，腾讯团队的程序员们啃起了《国家通用手语词典》，并让「聆语」在上岗之前也认真学习了《国家通用手语词典》的规范。
经过漫长的手语调研、手语顾问团队建设，团队开发出了一套手语翻译系统。在手语解说时，「聆语」首先通过健听人语言与听障者手语的机器翻译能力，将健听人语言内容低延迟生成高准确率的手语语言表征。示例如下：
输入：他是我的手语老师
预处理：他是我的手语老师
翻译：他我手语老师是
随后，「聆语」基于腾讯多模态端到端生成模型，进行联合建模及预测生成高准确率的动作、表情、唇动等序列，实现自然专业、易懂度高的手语效果。得益于腾讯云小微和PCGAI在语音技术领域的长期积累，「聆语」的AI手语可懂度达到了90%以上。
赛场手语翻译的难点，包括要通过ASR技术，将比赛解说的语音从赛场现场的复杂环境声音中分离出来进行精准的识别，然后再将识别出来的文本信息进行智能摘要，使手语翻译能够和主持人语速达到匹配。接下来，将手语翻译生成手语视频，保证每个动作准确的同时，也要实现动作与动作之间的精准衔接。
在信息准确率方面，「聆语」还可以快速学习时下的新词热词，快速完成各种行业、业务场景和相关知识的学习，提升翻译准确性。
比如17岁小将苏翊鸣被称为「小栓子」，再比如谷爱凌，需要「首字母+唇形」才能定义成特殊的词。借助腾讯的大数据技术能力，「聆语」能够做到快速及时地掌握热词，并进行手语词汇补充。
此外，「聆语」更贴合业务，产品落地能力更强。腾讯团队综合运用3D数字人建模、机器翻译、多模态数字人生成、迁移学习、实时面部动作生成及驱动等多项AI技术，加深其感知理解，「聆语」支持业务场景更加丰富，业务数据积累量也更大。
AI手语合成主播未来可期
随着AI交互智能的技术发展和应用落地，数智人已经成为很多行业的数字员工，辅助人类提供更加高效、精准的服务。
在新闻传媒领域，在2021年10月，广电总局在《广播电视和网络视听「十四五」科技发展规划》中也首次明确指出，要推动虚拟主播、动画手语广泛应用于新闻播报、天气预报、综艺科教等节目生产，创新节目形态，提高制播效率和智能化水平。