赛题|2021 CCIR Cup竞赛成果揭晓，极链发力“人机交互NLU”战绩可贺

【赛题|2021 CCIR Cup竞赛成果揭晓，极链发力“人机交互NLU”战绩可贺】近日，第27届全国信息检索挑战杯（CCIR Cup）竞赛结果揭晓，VIDEO++极链科技的两支人工智能科研代表队在「智能人机交互自然语言理解」赛题中分别取得第二名与第三名的竞赛战绩。
全国信息检索挑战杯是由全国信息检索学术会议（CCIR）发起的技术评测比赛，由中国中文信息学会与中国计算机学会联合举办。作为信息检索领域的航标，CCIR取得的科研成果满足了人类在互联网上快速准确获取信息与知识的需求，为人工智能领域存在的实际问题探索解决方案，也为科研人员提供了必要的数据支持，极大推动了互联网和人工智能产业的发展。
2021 CCIR，打响了国际级权威赛事第九届CCF大数据与计算机智能大赛（CCF BDCI）系列赛事的第一枪。该系列赛事邀请到梅宏、李国杰、倪光南、徐宗本等七大院士作为顶级专家评审，以及国内外百余名学术专家组成评审团，同时百度、华为和中原银行等十余家企业的技术专家进行参评。政产学研多方协同评审，其权威性有目共睹。
经历了近三个月A榜与B榜的接连挑战，决赛答辩阶段，组委会根据算法创新性、商业价值与现场表现力等多个维度对参赛团队进行综合评估，最终极链科技两支团队在中国移动研究院发布的「智能人机交互自然语言理解」赛题中取得第二名和第三名的优秀战绩。

文章插图
一直以来，“人机交互”都是人工智能的重要应用领域，随着“语音交互”“AR交互”等新兴交互方式的涌现，智能人机交互产品的自然语言理解（NLU ,Natural Language Understanding）任务开始在实际应用过程面临更加复杂的任务处理，根源在于自然语言本身较高的复杂性使得用户意图无法被很好地理解，使得相关产品往往很难满足用户的各类别复杂要求。

文章插图
为了更好地解决智能人机交互产品的自然语言理解任务，该赛题旨在对NLU领域的“意图识别”及“槽位填充”任务进行考察，发布的数据集包含用户与音箱等智能设备进行单轮对话的文本数据，共计11种意图类别（包含2个小样本意图）、47个槽位类型。
大赛需要参赛选手围绕所选赛题和特定任务，设置多种不同的技术场景，基于给定的数据训练算法模型，持续优化相关精度、效率等指标。因此该赛题除基本的学习任务外，还面临“域外检测”与“小样本学习”两个子任务：

期望通过“小样本学习”任务减少产品对大量新类别标注数据的依赖。
通过“域外检测”任务识别未知意图，摆脱对已知意图的干扰，同时达到尽可能好的学习效果。

两大团队面对所需解决的任务，均设计了由“域外检测”、“意图识别与槽位抽取”两大算法模块构成的算法系统。通过“域外检测”算法来排除测试集中的域外数据，再对过滤后得到的域内数据进行“意图识别与槽位抽取”。

赛题|2021 CCIR Cup竞赛成果揭晓，极链发力“人机交互NLU”战绩可贺

文章插图
解决方案整体流程图
“域外检测”算法部分，综合利用了BERT、RoBERTa、MACBERT等基于不同语料预训练和不同开源模型之间的互补能力，融合增强了整体算法模型体系的域外检测能力，提升域外数据召回率的同时，也利用了多样化开源数据进行训练以最大化构建域内数据的补集空间。
为了更进一步提升任务准确率，团队对意图识别与槽位抽取进行了联合建模，通过联合训练学习到了两种任务间的相互约束关系，并实现了一次推理过程即可同时完成两种任务，准确而高效。