|向产业链精细化进军:AI该如何深挖训练数据价值?( 二 )


过去AI模型训练以一个个项目为主 , 做完项目、得出一个预期质量的AI模型后 , 使用过的数据便被“丢弃”;而现在 , 企业倾向于持续把过去已有的数据利用起来 , 逐步形成属于企业的数据池子 , 将数据在多个相关模型开发中进行重复利用 。
这就导致单个企业所积累的数据量越来越多 , 而众所周知数据量的增长又以非结构化数据为主 , 企业所面临的AI数据集管理的挑战越来越明显 , 例如 , 数据量太大 , 针对特殊的场景缺乏精准的方式去找到有价值的数据;原本数据管理凌乱 , 本地服务器存一点、云端有一点 , 版本更新不同步 , 甚至出现一个Excel表格管理数据的现象;数据随意拷贝、传输 , 存在重大的资产损失风险等等 。
显而易见 , 这时候 , 能够帮助企业管理好AI数据 , 就成了重要的创新机遇 。
到目前为止 , 有三类不同背景的玩家在加入赛道:
一是原本就向企业提供数据采集与标注服务的厂商 , 例如开篇提到的云测数据 , 这类企业入局 , 是AI“产业链条”自然延伸的结果 。
从行业地位看 , 在《互联网周刊》&eNet研究院、德本咨询联合发布的《2021数据标注公司排行》中 , 云测数据凭借最高99.99%精准度数据标注能力和场景化训练数据方案等 , 再次排在“数据标注公司排行”榜首位置 , 其云测数据标注平台4.0能够实现AI数据训练综合效率提升200% 。
但是 , 越是如此 , 云测数据这样的平台就越绕不过企业AI数据管理的问题——如果只是提供数据、帮助训练效率提升 , 而不推动企业“搞定”数据管理 , 随着企业面临数据管理的挑战 , 其商业模式越往下走就越会越到障碍 , 这时候 , 就只能在已有的技术和服务经验积累的基础之上拓展AI产业链条细化环节 , 推出专门的针对AI数据集管理的技术系统——也顺势成为国内首个该领域的系统 。
可以说 , 云测数据推出AI数据集管理系统 , 既是基于人工智能行业前瞻性发展的具象化技术产品体现 , 为企业寻找新的发展空间 , 也是AI产业链条闭环的一种倒逼 。
其优势在于 , 作为原来的AI训练数据服务商 , 借助AI数据集管理系统 , 可以以“全生命周期关注”的姿态走进需求企业 , 推动企业从最开始的数据获取到最终的产业落地全周期效率提升 , 帮助客户企业整体化思考 , 也契合AI发展告别项目制走向敏捷开发的趋势 。 而作为原本AI训练数据服务领域的领导者 , 云测数据的智能驾驶、智慧城市、智能家居、智慧金融、新零售等众多垂直领域的数据服务技术与经验可以很好地横移到AI数据集管理当中 , 在数据检索、数据呈现、数据安全保障等方面有垂直化的经验壁垒 。
二是互联网、科技领域的大厂 , 它们都具备云计算方面的数据管理基础禀赋 , 其入局 , 是从数据管理大赛道延展到AI数据集管理小赛道的客观结果 。
较为典型的是IBM , 面向中国市场提供混合数据管理系统 , “利用数据管理驱动AI”是官方宣称的重要价值之一 , 例如其IBM Cloud Pak for Data , 产品功能是帮助企业收集、组织和分析数据 , “以实现有影响力的AI” , 而其实现主要包括在容器化的环境中运行IBM Db2 Warehouse等——不需要知道这是什么 , 只要知道这些原本就用于云计算数据管理即可 。
其他如从事数据标注的百度、阿里等 , 其云计算中都或多或少包含AI数据集管理的能力 , 只不过并非专门的系统 , 这类企业的优势在于 , 原本的数据管理往往会积累一定的基础客户量 , 在品牌上也有大厂背书 。
三是“白手起家” , 直接切入赛道的创新企业 , 这类企业以寻找商业机会为直接目标 。