工行里的数字员工是怎么来的?( 二 )


工行里的数字员工是怎么来的?
文章图片
图2BERT模型
在模型训练方面 , 主要有样本准备、文本预处理等步骤 。 样本准备包括:收集业务数据 , 为每条数据打上业务标签;采用文本相似度、关键词抽取等方式扩充数据集;主动学习方法 , 闭环标注 。 准备好样本后 , 需要对文本进行预处理 , 包括样本清洗、分词、去除停用词、预训练语义词向量初始化等 。
对话实体抽取
在银行中后台业务场景中 , 用户对话通常有报表下载等任务需求 , 且这些任务需求对话通常有若干语义槽的槽位需要填充 , 当有槽位未填充时 , 需要回复话术引导用户回答 , 填满所有槽位 。 每一个槽位对应一种实体 , 对槽位填充的过程即对话实体抽取过程 。
在模型选择方面 , 综合考虑数据量级、工程建设等因素 , 最终选择BERT+CRF模型作为实体抽取模型结构(见图3) 。 Bert模型通过海量数据的预训练 , 学习到普适性的知识 , 再通过上层添加CRF约束 , 对token级别的识别具有良好的效果 。
工行里的数字员工是怎么来的?
文章图片
图3BERT+CRF模型
在模型训练方面 , 与用户意图识别类似 , 包括样本准备、文本预处理过程等步骤 , 此处不再赘述 。
模型蒸馏
为提升模型运行效率 , 同时考虑到生产环境对模型容量等的限制 , 在业务场景中通常需要对模型进行蒸馏 。
模型蒸馏采用Teacher-Student迁移学习方法(见图4) , 将Teacher模型的性能迁移到Student模型上 , 因Teacher模型网络更为复杂 , 具有良好的泛化能力 , 可以用它学习到的softknowledge来指导Student模型的学习 , 使得参数量更少、更简单的Student模型也能够具备与Teacher模型相近的学习能力 。
实践中 , 将上述意图识别和实体抽取的两个Bert系列模型作为Teacher , Bilstm模型作为student , 通过Teacher-Student知识传递 , 最终将模型在效果未打折扣的情况下进行规模压缩 , 实现顺利部署上线 。
工行里的数字员工是怎么来的?
文章图片
图4迁移学习
回流数据学习
数字人收集用户反馈信息(投诉、回答错误反馈等)、新问题、新语料等数据 , 重新开始数据预处理、特征工程、模型训练等过程 , 即自我学习 , 其中模型训练依然使用前文提及的BERT、CRF等算法获得新NLU模型 , 定时对原模型进行更新 , 并重新部署 。 在部署过程中如遇效果不如原模型的情况 , 则会启动回滚模式 , 回滚到上一版本NLU模型(见图5) 。
工行里的数字员工是怎么来的?
文章图片
图5数据回流
回流知识信息还包括埋点信息、业务术语、属性关联等 , 这些知识信息通过各种途径进入数据湖沉淀、加工、组合 , 并形成索引后存储在Elasticsearch
等知识库中 。 数字人对接知识库 , 通过意图识别等模型进行分词检索和匹配来获取知识概要或索引 , 并对接数据湖底座 , 借助索引获取数据资产等业务要素 , 丰富与精细化库内模板 , 并不断进行离线模型训练和迭代 。
数字人在面对法务、运维等新场景时 , 模型与QA数据库也能自我驱动与更新 , 及时响应新领域的问答与对话 , 快速适配新场景 , 同时也在用户的不断使用中进行升级 。
数字人交互实践:通过“微前端+微服务”模式嵌入业务
数字人交互工程通过落地意图配置、数据可视化、服务热插拔等能力来达到整合业务服务、降低用户使用门槛的目的 , 并通过“微前端+微服务”的模式以组件化低侵入的方式嵌入到业务系统 。