对话腾讯李学朝:解读从“数字人”到“数智人”的进化论( 二 )


此前搜狗在2D数字人方面已有很多积累 。 搜狗并入腾讯后 , 李学朝谈道 , 搜狗在2D数字人方面的技术、产品与场景积累 , 与云小微数智人的能力产生了叠加和协同 , 从而能提供更好的产品 。
腾讯云小微通过整合AI能力 , 连接腾讯丰富的内容和服务生态 , 面向使用场景打磨平台能力 , 助力行业客户打造有智能、有形象、生动交互的AI 。
除了提供标准化的行业包外 , 腾讯云小微也可以在一些新场景下 , 为合作伙伴或客户提供定制化服务 , 包括形象定制、行业场景理解 , 让数智人更懂这个场景 , 对话更加听得清、听得懂 。 而与客户的合作 , 又会为这些场景积累新的应用 , 从而进一步积累腾讯云小微数智人的技术、工具和场景落地经验 。
二、基于两大交互模式 , 落地金融、文旅等多类场景
不同于近期很火的元宇宙虚拟人 , 李学朝特意提到数智人是为数字世界打造的数字员工 , 旨在更好地服务行业场景、服务到现实世界的用户 。
按照交互模式 , 数智人主要有播报式和交互式两种类型 。 播报式通过文本驱动 , 进行内容播报 , 提升内容生产效率 , 适用于新闻播报、应急服务等场景;交互式数智人通过对话提供服务 , 能更好地协助企业客服 , 提升业务办理效率 。
在金融领域 , 数智人已助力平安普惠落地了行业首个金融AI数字员工 , 通过自然可视化的人机智能交互 , 累计服务用户500万 , 审核成本降低60% , 保障了2年间7x24h的在线服务 。
在文旅领域 , 数智人化身导游 , 在故宫、龙门石窟等景区提供AI导览服务 , 为游客提供个性化游览路线推荐 , 景点文物讲解等多种服务 。
在传媒行业 , 助力新华社推出全球首个“AI合成主播” , 目前已累计播报新闻超过1万条 , 保证播报零误差 , 可对日常和突发事件实时响应 。
在教育领域 , 数智人作为助教 , 可根据文本和课件进行自学习 , 以更生动、亲切的形象和学生互动 。
同时 , 腾讯云小微致力于让数智人与智能设备结合 , 打造以用户为中心的生活服务 。
比如在公共服务中 , 数智人可及时、高效地处理用户在公共交通中的票务等问题 , 也可辅助人力进行政策问答 , 提升政策办事问答效率 。
在智能家居中 , 用户通过语音指令即可随时随地与数智人交流 , 凭借全新的视觉表达 , 提供自然、丰富的智能交互服务 。
李学朝也谈到数智人面临的一些挑战与风险 。
首先 , 如果数智人不够智能 , 出现答非所问等情况 , 会导致客户感受大打折扣 。 其次 , 在使用方面 , 目前数智人主要针对封闭的企业场景 , 去解决客户服务流程中的各种业务问题 , 还没有将其技术完全开放和应用到C端场景中 , 因为C端可能存在此前“换脸”等伦理问题的风险 。
李学朝坦言 , 当前技术还存在一些局限性 , 比如很难从文字、语音中准确理解情感 , 在合成语音时 , 也要基于前面语义、语音情感的输入 , 让合成的声音有情感表达 。 另外 , 如何基于文本来驱动表情 , 也需要持续的探索 。 这些技术的持续进化 , 将使得数智人表现得更为立体 。
三、多模态人机交互模式的四个技术趋势
最后 , 李学朝谈到未来多模态人机交互模式所呈现的四个技术趋势 。
首先 , 在多模态交互过程中 , 一个趋势是围绕“听得清” , 怎么去更多地跨界融合 。 今天腾讯云小微与腾讯AILab联合发布了全新技术品牌——腾讯语音智能 , 即是更好地迎合这个趋势 。
腾讯语音智能为设备提供在复杂语音环境下 , 从输入到输出交互体验全面升级的全链路的AI+声学技术解决方案 。 比如通过从前端与ASR(自动语音识别)模式结合 , 实现在复杂、嘈杂场景中更好地识别和分离出目标人物的语音 。