女科学家创业:花300天整数据,如今为超100家AI企业输送“原油”( 三 )



目前,从数据行业看,行业提供的大部分人工智能数据都以朗读式训练数据为主,而人与人自然的对话式数据对训练对话式 AI 有更加关键的作用。“要想把机器训练成人,使得机器可以像人一样能够理解语言,这就需要我们为机器注入知识图谱、中文、方言、外语等等,这确实有很大的难度,但这正是我们意义所在。”张晴晴说道。

如今,AI训练数据集、数据智能化标注平台Annotator ? 5.0以及MagicHub.com开源社区已经构成了爱数智慧业务的三大基石。

一方面,对于没有自己数据的企业,或者企业在合规的角度不能触碰数据又需要解决AI的问题,都可以从爱数智慧采购合规的数据集。这些数据已经按照一定的行业和场景的规则,进行了个人信息的脱敏性处理,同时有着严格的保密性存储,从而帮助企业既快又合规地搭建自己的基础系统。

值得一提的是,爱数智慧是国内第一批拿到ISO27701认证的数据服务商,27701是全球最新的个人隐私认证,在数据处理上遵循国际国内的最高标准。

目前,爱数智慧拥有超过200000小时数据集,其中超过140000小时对话式AI训练数据集,这些数据集经过多维度的标注,包括语音到文本的转换,以及说话人性别、年龄、情感等标签,这些标签能够帮助开发者在解决多语言对话式AI上提供更多的信息,从而帮助优化对应的模型。

在语种上,爱数智慧拥有超过60种语言的数据集,还有部分针对外语数据构建的双语混合数据集,如泰语英语混合数据集、马来语英语混合数据集等,从而帮助开发者解决混合语音识别的问题。

在场景和行业上,爱数智慧构建了五大行业垂类AI数据集,包括智慧出行、智能社交、智慧金融、智能家居以及智能终端。以智能座舱为例,整个行业在语音识别、语音合成、自然语言理解方面,普遍还面临识别率低、机器听不懂、合成声音比较假等难题。

女科学家创业:花300天整数据,如今为超100家AI企业输送“原油”
文章插图

爱数智慧合伙人兼销售副总裁 张涛

据爱数智慧合伙人兼销售副总裁张涛介绍,国内车企在拓展海外市场时,会涉及到要能够识别不同地区用户的英语口音问题。通过大量的对话数据集或者语料库,爱数智慧已经将这些共性抽取出来,从而形成了一个标准AI训练数据集。

客户通过这些数据集来训练它的模型,就能够让整个人机交互提升到更高的水平。除此之外,爱数智慧还能够提供智能化标注平台Annotator ? 5.0,为企业提供私有化部署,在保证数据安全的情况下帮助客户降本增效。

目前,有不少传统车企和造车新势力都已经成为爱数智慧的客户。

在大多数人的印象中,会把数据标注认为是一项没有技术含量的活儿,甚至认为只需要中专生、大专生审核对错、是否敏感即可。但其实,数据标注是要将现有的专家知识体系和知识图谱融入到系统中去,也就是“教机器做事”。

随着AI数据处理的复杂度越来越高,就需要更多垂直行业和场景的背景知识。因此,AI数据标注这个动作未来会越来越会由懂行业knowhow的专家来完成。

但是每个企业不可能都请到专家天天做数据标注这样最基本的动作。要能够做到真正地降本增效就需要一款能够高效且自动化、智能化的数据处理工具,爱数智慧将其称之为office for AI——Annotator ? 5.0智能化标注平台。

经过5年的迭代,这套系统不断给各大企业处理音频、视频、文字等多模态数据,如今Annotator ? 5.0不仅仅是一个数据标注平台,更是在此之上同步完成了企业的数字化、信息化以及智能化这三个步骤。