语音识别|女科学家创业:曾花300天整数据、被通知立刻搬家,如今她为超100家AI企业输送"原油"( 三 )


如今,AI训练数据集、数据智能化标注平台Annotator ? 5.0以及MagicHub.com开源社区已经构成了爱数智慧业务的三大基石。
一方面,对于没有自己数据的企业,或者企业在合规的角度不能触碰数据又需要解决AI的问题,都可以从爱数智慧采购合规的数据集。这些数据已经按照一定的行业和场景的规则,进行了个人信息的脱敏性处理,同时有着严格的保密性存储,从而帮助企业既快又合规地搭建自己的基础系统。
值得一提的是,爱数智慧是国内第一批拿到ISO27701认证的数据服务商,27701是全球最新的个人隐私认证,在数据处理上遵循国际国内的最高标准。
目前,爱数智慧拥有超过200000小时数据集,其中超过140000小时对话式AI训练数据集,这些数据集经过多维度的标注,包括语音到文本的转换,以及说话人性别、年龄、情感等标签,这些标签能够帮助开发者在解决多语言对话式AI上提供更多的信息,从而帮助优化对应的模型。
在语种上,爱数智慧拥有超过60种语言的数据集,还有部分针对外语数据构建的双语混合数据集,如泰语英语混合数据集、马来语英语混合数据集等,从而帮助开发者解决混合语音识别的问题。
在场景和行业上,爱数智慧构建了五大行业垂类AI数据集,包括智慧出行、智能社交、智慧金融、智能家居以及智能终端。以智能座舱为例,整个行业在语音识别、语音合成、自然语言理解方面,普遍还面临识别率低、机器听不懂、合成声音比较假等难题。
语音识别|女科学家创业:曾花300天整数据、被通知立刻搬家,如今她为超100家AI企业输送"原油"
文章插图

爱数智慧合伙人兼销售副总裁 张涛
据爱数智慧合伙人兼销售副总裁张涛介绍,国内车企在拓展海外市场时,会涉及到要能够识别不同地区用户的英语口音问题。通过大量的对话数据集或者语料库,爱数智慧已经将这些共性抽取出来,从而形成了一个标准AI训练数据集。
客户通过这些数据集来训练它的模型,就能够让整个人机交互提升到更高的水平。除此之外,爱数智慧还能够提供智能化标注平台Annotator ? 5.0,为企业提供私有化部署,在保证数据安全的情况下帮助客户降本增效。
目前,有不少传统车企和造车新势力都已经成为爱数智慧的客户。
在大多数人的印象中,会把数据标注认为是一项没有技术含量的活儿,甚至认为只需要中专生、大专生审核对错、是否敏感即可。但其实,数据标注是要将现有的专家知识体系和知识图谱融入到系统中去,也就是“教机器做事”。
随着AI数据处理的复杂度越来越高,就需要更多垂直行业和场景的背景知识。因此,AI数据标注这个动作未来会越来越会由懂行业knowhow的专家来完成。
但是每个企业不可能都请到专家天天做数据标注这样最基本的动作。要能够做到真正地降本增效就需要一款能够高效且自动化、智能化的数据处理工具,爱数智慧将其称之为office for AI——Annotator ? 5.0智能化标注平台。
经过5年的迭代,这套系统不断给各大企业处理音频、视频、文字等多模态数据,如今Annotator ? 5.0不仅仅是一个数据标注平台,更是在此之上同步完成了企业的数字化、信息化以及智能化这三个步骤。
众所周知,企业的系统中都存在大量的音视频等非结构化数据,并没有被智能化的挖掘出来释放出其价值。而这套系统就可以帮助企业把这些杂乱无章的数据进行相应的标签化,并存储到企业的数据库中,从而便于企业基于这些数据再进行挖掘,为决策分析提供参考。
张涛谈到,在这个标注系统中,已经有大量专业术语的知识沉淀。在标注的过程中,机器可以像帮助人工解决一部分标签化的工作,而人只需要在此基础上做一些校正即可。整体操作效率预计能够提高100%以上,综合成本反而可以降低50%。