这个开源数据集要在全球扩大中文NLP影响力，你也能来做贡献( 二 ) 机器之心发布机器之心编辑部

【这个开源数据集要在全球扩大中文NLP影响力，你也能来做贡献】第三，跨模态。跨模态是指随着内容承载形式的多元化，模型需要具有多模态融合（语言、图像、语音、视频等）的内容理解等能力。为此，「千言」推出了机器同传数据集BSTC以及跨模态情感分析数据集DuVideoSenti来促进跨模态领域的发展。机器同传主要关注语言和语音跨模态的交互，而跨模态情感分析主要关注语言和视频跨模态的交互。
经过了一年的发展，千言所覆盖的任务和数据集数量显著增加，从最开始的7个任务，发展到最新的12个任务，对应的数据集数量，也从最开始的22个数据集，增加到了现在36个数据集。

文章图片
千言「百+」计划：共同构建世界范围内中文NLP的影响力
为了更好地帮助数据集作者提升数据集影响力和推进相关技术发展，千言项目正式推出了「百+计划」，覆盖了「百+数据集作者」和「百+技术专家」。作为「百+数据集作者」，会被邀请进入千言学术委员会。千言会帮助数据集作者发布评测，并提供飞桨开源基线、评测平台和GPU算力的支持，提升数据集的影响力，推动技术的发展。「百+技术专家」则是针对优秀开发者和学生的认证，技术专家可以得到大量分享和交流技术方案的机会，并会受邀参与官方活动。

文章图片
中文是千年华夏文明传承的载体，是中华民族的骄傲和根基。在当下的人工智能时代，「千言」数据开源项目也希望与学术界、产业界携手，共同推动中文信息处理技术的进步，理解语言、拥有智能，改变世界，将华夏文明的宝藏学习并传承下去。
访问https://luge.ai加入千言交流群来了解更多关于千言数据集的详细信息。