|向产业链精细化进军:AI该如何深挖训练数据价值?( 三 )


例如来自上海的格物钛 , 主要提供面向机器学习的数据管理SaaS产品 , 支持企业进行海量数据托管 , 宣称要提供“人工智能基础设施” , 该企业目前得到了红杉、云启、真格以及风和资本的千万美金Pre-A轮融资 , 这从侧面反映了AI数据集管理的价值潜力 。
这类企业的优势在于轻装上阵 , 在资本的青睐和支撑下似乎可以把产品做得更精细化 , 当然 , 它们的出现 , 也意味着后续将有更多过去与AI数据集没有“渊源”的创新企业加入 , 这个赛道会越来越热闹 。
标准化的四个维度 , AI数据集管理挖掘AI产业链细化环节的创新价值
从具体做法来看 , 不管什么来路 , 做AI数据集管理 , 无非都包括标准化的四个维度 , 只不过实现方式各不相同 。
【|向产业链精细化进军:AI该如何深挖训练数据价值?】首先 , 是便捷的数据检索和利用 。
量大且非标准化 , 池子还在不断扩大 , 于是方便的检索和利用就成为AI数据集管理的核心任务 。
这方面 , IBM使用了开放式平台上的自动容器化功能 , 通过架构优势来让数据收集和管理变得更加简单智能 , 易于访问;而云测数据等企业都采用的是清晰化的标签与属性体系让工程师可以快速找到想要的数据 。
值得一提的是 , 云测数据的AI数据集管理系统还适配了多数的公开、开源数据集格式 , 这使得企业无论是从外部获得数据(这种情况十分普遍)还是自己花钱采集与标注得到的数据 , 都能得到统一的管理 。
此外 , 数据的“可读性”也是衡量AI数据集管理系统能力的关键指标 , 在数据筛选出来后还能将数据还原 , 能有效帮助AI开发过程实现精细化(图:云测数据-AI数据集管理系统数据可视化界面):

一方面 , 这类可视化功能可以帮助AI开发工程师直接查看数据最开始的状况 , 更容易理解数据;另一方面 , 如果工程师有新的数据需求 , 也可以通过可视化的方式进行精确化的数据调校 。
然后 , 是日常管理和使用的便捷性、安全性 。
本质上 , AI数据集管理是企业AI开发工作流程在信息化方面的一种体现 , 作为重要的工作对象和企业资产 , 企业层面的流程规范必须在AI数据集管理系统中得到遵守 。
所以 , 可以看到 , 格物钛在系统中做到了数据的查看、编辑、使用和管理权限分离 , 来保障数据的访问安全;而云测数据则强调多团队协作与数据资产化管理同步进行 , 提供多团队数据使用权限分配、存储空间限定、使用日志记录等功能 , 企业可以根据实际需要灵活配置权限 , 这种做法能保证数据版本、工作协同的效率 , 且“数据失窃”、“删库跑路”等资产损失事件将最大程度规避 。
再有 , 是对企业自主扩展的支持 。
一般而言 , AI数据集管理都是与企业AI开发全流程紧密融合的 , 企业往往要将这套系统进行扩展以更好地满足上下游业务需求 , 而由于不同行业、企业的情况各不相同 , 服务厂商不太可能提供一个能够支持所有企业都将AI数据集管理系统与企业上下游业务实际相融合的标品方案 。
这时候 , 将系统做得很有扩展性 , 尽可能基础化、通用化 , 并支持企业自主开发扩展就变得很重要 , 可以看到 , 云测数据提供了有Python SDK、CLI和API等开发工具 , 让企业可以根据业务需要 , 持续集成数据输入、输出训练、数据迭代等业务场景 。
最后 , 是部署成本的节约 。
这是很多企业选择AI数据集管理系统的重要决策依据 。
由于公有云、私有云的发展 , 这方面的逻辑已经变得比较简单 , 越是弹性化、包容性强的方案 , 越可能实现恰当的成本支出 , 典型如云测数据就十分强调其“灵活易扩展的混合存储支持”的特性 , 支持根据数据安全级别、使用频率、使用方式等对数据集分级管理 , 让企业可以“在安全和经济上灵活选择” 。