这个开源数据集要在全球扩大中文NLP影响力,你也能来做贡献

机器之心发布
机器之心编辑部
千言的升级重点聚焦大模型时代的机遇和挑战 。
「千言」是由百度联合中国计算机学会、中国中文信息学会共同发起的面向自然语言处理的开源数据集项目 , 旨在推动中文信息处理技术的进步 。 近日 , 在2021年12月12日的WAVESUMMIT+2021深度学习开发者峰会上 , 清华大学长聘副教授黄民烈作了题为「千言:数据驱动技术进步」的演讲 , 回顾了千言过去一年中取得的进展和广泛影响力 , 并发布了千言的全新升级 , 重点聚焦大模型时代的机遇和挑战 。 此外 , 千言还推出了「百+」计划 , 邀请更多的专家学者共同建设千言 , 构建世界范围内的中文NLP影响力 。
中文开源数据集项目「千言」获得广泛关注和使用
「千言」开源数据集项目自2020年8月发布以来 , 已经有来自清华、哈工大、中科院、美团、OPPO等14家单位的数据集作者加入共同建设 , 目前已经覆盖了10多个自然语言处理的任务 , 包含了开放域对话、机器阅读理解、机器同传、文本生成、情感分析等任务 。 「千言」为研究者提供了一站式的数据集浏览、整理、下载以及评测体验 , 受到了越来越多研究者的关注和使用 , 数据集下载量增长134% , 相关任务的提交次数增长649% , 增长非常显著 。
这个开源数据集要在全球扩大中文NLP影响力,你也能来做贡献
文章图片
此外 , 千言还推动了多项自然语言处理的评测 , 截至目前总共支持了20多项技术评测 , 包含了语言与智能技术竞赛(LIC2021)、CCFBDCI多技能对话评测、NLGIW2021面向事实一致性的生成评测、CCFBDCI问题匹配鲁棒性评测、NAACL2021机器同传评测等 。 其中 , 参与评测的人员有57%来自高校和科研院所 , 21%来自企业 , 在学术界和工业界都产生了很大的影响力 。 开源数据集和技术评测的联动 , 很好的推动了相关任务的技术研究和应用发展 。
「千言」升级:聚焦通用、可信、跨模态等大模型时代的机遇和技术挑战
推动人工智能技术进步的三大驱动力是算法、算力和数据 。 其中 , 数据作为最重要的基础 , 其数量和质量直接决定了算法能够达到的上限水平 。 人工智能的历史上 , 优秀的数据集极大地推动了领域技术的发展和行业的进步 。 近两三年 , 随着大模型技术的出现和发展 , 基于大模型的自然语言处理技术也取得了长足的进步 。 在取得进步的同时 , 大模型也带来了新的技术挑战和新的技术机遇 , 包括了通用、可信、跨模态等 。 「千言」的升级也重点聚焦在了这三个方面 。
第一 , 通用 。 通用指模型需要具有全面的、处理多个子任务的能力 , 同时需要在跨领域数据上具有较好的泛化能力 。 「千言」推出了多技能对话任务和多形态信息抽取任务来促进模型通用性的提升 。 在多技能对话任务中 , 期望模型能够同时处理多种对话子任务 , 包括知识对话、闲聊对话、推荐对话、画像对话等;在多形态信息抽取任务上 , 期望模型能够同时处理句子级关系抽取、句子级事件抽取和以及篇章级事件抽取等任务 。
第二 , 可信 。 可信是指模型在应用中需要有足够的鲁棒性、较高的可解释性以及结果的一致性 。 其中 , 为了促进提升模型的鲁棒性 , 「千言」发布了问题匹配鲁棒性数据集DuQM、阅读理解鲁棒性数据集DuReaderchecklist 。 为了提升模型的可解释性 , 「千言」发布了情感分析可解释数据集DuTrust 。 在事实一致性方面 , 「千言」则推出三个生成任务来综合进行评测 , 分别包括了文案生成数据集AdvertiseGen、摘要生成数据集LCSTS、问题生成数据集DuReaderQG 。