这个开源数据集要在全球扩大中文NLP影响力,你也能来做贡献( 二 )


这个开源数据集要在全球扩大中文NLP影响力,你也能来做贡献】第三 , 跨模态 。 跨模态是指随着内容承载形式的多元化 , 模型需要具有多模态融合(语言、图像、语音、视频等)的内容理解等能力 。 为此 , 「千言」推出了机器同传数据集BSTC以及跨模态情感分析数据集DuVideoSenti来促进跨模态领域的发展 。 机器同传主要关注语言和语音跨模态的交互 , 而跨模态情感分析主要关注语言和视频跨模态的交互 。
经过了一年的发展 , 千言所覆盖的任务和数据集数量显著增加 , 从最开始的7个任务 , 发展到最新的12个任务 , 对应的数据集数量 , 也从最开始的22个数据集 , 增加到了现在36个数据集 。
这个开源数据集要在全球扩大中文NLP影响力,你也能来做贡献
文章图片
千言「百+」计划:共同构建世界范围内中文NLP的影响力
为了更好地帮助数据集作者提升数据集影响力和推进相关技术发展 , 千言项目正式推出了「百+计划」 , 覆盖了「百+数据集作者」和「百+技术专家」 。 作为「百+数据集作者」 , 会被邀请进入千言学术委员会 。 千言会帮助数据集作者发布评测 , 并提供飞桨开源基线、评测平台和GPU算力的支持 , 提升数据集的影响力 , 推动技术的发展 。 「百+技术专家」则是针对优秀开发者和学生的认证 , 技术专家可以得到大量分享和交流技术方案的机会 , 并会受邀参与官方活动 。
这个开源数据集要在全球扩大中文NLP影响力,你也能来做贡献
文章图片
中文是千年华夏文明传承的载体 , 是中华民族的骄傲和根基 。 在当下的人工智能时代 , 「千言」数据开源项目也希望与学术界、产业界携手 , 共同推动中文信息处理技术的进步 , 理解语言、拥有智能 , 改变世界 , 将华夏文明的宝藏学习并传承下去 。
访问https://luge.ai加入千言交流群来了解更多关于千言数据集的详细信息 。