对话腾讯李学朝：解读从“数字人”到“数智人”的进化论( 二 ) 智东西作者|ZeR0编辑|漠影智东

此前搜狗在2D数字人方面已有很多积累。搜狗并入腾讯后，李学朝谈道，搜狗在2D数字人方面的技术、产品与场景积累，与云小微数智人的能力产生了叠加和协同，从而能提供更好的产品。
腾讯云小微通过整合AI能力，连接腾讯丰富的内容和服务生态，面向使用场景打磨平台能力，助力行业客户打造有智能、有形象、生动交互的AI 。
除了提供标准化的行业包外，腾讯云小微也可以在一些新场景下，为合作伙伴或客户提供定制化服务，包括形象定制、行业场景理解，让数智人更懂这个场景，对话更加听得清、听得懂。而与客户的合作，又会为这些场景积累新的应用，从而进一步积累腾讯云小微数智人的技术、工具和场景落地经验。
二、基于两大交互模式，落地金融、文旅等多类场景
不同于近期很火的元宇宙虚拟人，李学朝特意提到数智人是为数字世界打造的数字员工，旨在更好地服务行业场景、服务到现实世界的用户。
按照交互模式，数智人主要有播报式和交互式两种类型。播报式通过文本驱动，进行内容播报，提升内容生产效率，适用于新闻播报、应急服务等场景；交互式数智人通过对话提供服务，能更好地协助企业客服，提升业务办理效率。
在金融领域，数智人已助力平安普惠落地了行业首个金融AI数字员工，通过自然可视化的人机智能交互，累计服务用户500万，审核成本降低60% ，保障了2年间7x24h的在线服务。
在文旅领域，数智人化身导游，在故宫、龙门石窟等景区提供AI导览服务，为游客提供个性化游览路线推荐，景点文物讲解等多种服务。
在传媒行业，助力新华社推出全球首个“AI合成主播” ，目前已累计播报新闻超过1万条，保证播报零误差，可对日常和突发事件实时响应。
在教育领域，数智人作为助教，可根据文本和课件进行自学习，以更生动、亲切的形象和学生互动。
同时，腾讯云小微致力于让数智人与智能设备结合，打造以用户为中心的生活服务。
比如在公共服务中，数智人可及时、高效地处理用户在公共交通中的票务等问题，也可辅助人力进行政策问答，提升政策办事问答效率。
在智能家居中，用户通过语音指令即可随时随地与数智人交流，凭借全新的视觉表达，提供自然、丰富的智能交互服务。
李学朝也谈到数智人面临的一些挑战与风险。
首先，如果数智人不够智能，出现答非所问等情况，会导致客户感受大打折扣。其次，在使用方面，目前数智人主要针对封闭的企业场景，去解决客户服务流程中的各种业务问题，还没有将其技术完全开放和应用到C端场景中，因为C端可能存在此前“换脸”等伦理问题的风险。
李学朝坦言，当前技术还存在一些局限性，比如很难从文字、语音中准确理解情感，在合成语音时，也要基于前面语义、语音情感的输入，让合成的声音有情感表达。另外，如何基于文本来驱动表情，也需要持续的探索。这些技术的持续进化，将使得数智人表现得更为立体。
三、多模态人机交互模式的四个技术趋势
最后，李学朝谈到未来多模态人机交互模式所呈现的四个技术趋势。
首先，在多模态交互过程中，一个趋势是围绕“听得清” ，怎么去更多地跨界融合。今天腾讯云小微与腾讯AILab联合发布了全新技术品牌——腾讯语音智能，即是更好地迎合这个趋势。
腾讯语音智能为设备提供在复杂语音环境下，从输入到输出交互体验全面升级的全链路的AI+声学技术解决方案。比如通过从前端与ASR（自动语音识别）模式结合，实现在复杂、嘈杂场景中更好地识别和分离出目标人物的语音。