文章图片
文章图片
文章图片
前段时间看到这样一篇报告 , 说是数据量目前呈现暴涨趋势 , 但从企业内部的数据类型来看 , 非结构化数据占企业内数据总量的80% , 却仅占整体使用率的30% , 长期以来其价值未得到充分有效利用
也就是说目前传统数据治理体系多停留在结构性数据化治理工作 , 尚难满足AI应用对数据的高质量要求 , 艾瑞提取测算了大数据平台、数据中台、AI应用与数据治理服务的项目中与AI应用相关
的数据治理规模并加总而得 , 2021年中国面向人工智能的数据治理规模约为40亿元 , 预计2026年市场规模达到294亿元
也有人会疑惑 , 这个和数据标注有什么关系呢?大家不妨来看看AI数据治理产业的图谱
·上游:数据源与数据产能;
·中游:数据产品开发工具与管理服务;
·下游:人工智能应用
无论是上游的产能供应方 , 还是中游的AI基础服务商 , 其工作职责都有使用标注工具处理图片、语音、文本等非结构化数据 , 转化为可供使用的结构化数据 , 且为数据质量负责 , 从而为下游的AI训练所用 , 使AI应用场景落地能够省时省力
【汽车|想要在数据标注行业发展?那你一定的了解这五大标注行业现状】综上来看 , 我们想要做AI基础数据服务行业-数据标注 , 机会和发展空间其实是非常大的 , 但我们再回到数据标注行业本身来看 , 如果我们想要进入这个行业 , 还是要从行业本身出发 , 了解到这四个目前的状况
1.对数据服务商的场景化标注能力要求提升
场景不同 , 对应的标注需求不同 , 这个大家都知道 , 举个简单的例子 , 自动驾驶需要行人标注、车辆识别、认识红绿灯以及道路上的物体识别 , 而智慧安防则需要物体追踪检测 , 关键点信息提取以及车辆车牌的识别
2.标注效率有待提高
在人力成本无法减轻的情况下 , 提高数据标注员标注熟练度 , 或者使用高效率的标注工具可以有效提升标注效率 。 但熟练度高的标注员在行内仍是稀缺状态 , 而高效率的标注工具在行业内也较为稀缺
3.高门槛的标注项目人力成本过高
数据标注虽说是劳动密集型产业 , 但现在随着场景的多元化 , 如金融、医疗、语音、法律、零售等对于标注行业的要求只高不低 , 通过传统的标注方法有时候是无法满足当前的需求的 , 这就需要更专业的人才 , 也就意味着人力成本会相对应的提高
4.标注数据的准确率有待提高
数据标注就是帮助机器去学习去认知数据中的特征 。 比如我们要让机器学习认知汽车 , 我们直接给机器一个汽车的图片它是无法识别的 , 我们必须对汽车图片进行标注打上标签注明“这是一个汽车” , 当机器获得大量打上标签的汽车图片进行学习之后 , 我们再给机器一个汽车的图片 , 机器就能知道这是一个汽车了
因此数据质量的高低就直接决定了模型质量的好坏 , 机器学习依赖海量标注数据的投喂 , 这些数据质量的高低将对AI最终能否顺利落地产生重要影响 。 因此 , 随着科技的不断发展 , 行业对标注数据的准确率要求越来越高 , 目前标注数据准确率需达到99% , 甚至是99.99%才可满足行业需求 , 这也是为什么现在会出现人工智能训练师职业标准之一了
- 联想|联想官网“高配定制”火爆618,透露联想的三个侧面
- CPU|618想装高颜值高性能主机?这套微星纯白全家桶快了解一下
- 华为|想一出是一出,老美终究是低估了华为、中兴的能力!
- 本文转自:大象新闻富豪们想变年轻想疯了。|富豪纷纷入局“重返年轻”技术:贝索斯30亿美元搭上末班车
- 联想拯救者y9000x|8999元价格,体验全能笔记本,联想拯救者Y9000X给生活一点料
- MySQL|阿里又搞大动作!推出全新CIPU芯片,想取代CPU的地位
- 联想|该怎么选轻薄本看这篇就够了!2022年上半年9款最值得购买的轻薄本推荐
- 联想|联想出击,锐龙R7+RTX3070,拯救者R9000P还值不值得买
- 功夫汽车|马斯克预言:所有美国车企都会倒闭,除了特斯拉和……
- 索尼|618装机小参考,这里应该有你想要的,以及需要的!