汇通达|国外创投新闻|美国初创「Heartex」获2500万美元A轮融资,帮助数据科学家管理数据标注流程

【汇通达|国外创投新闻|美国初创「Heartex」获2500万美元A轮融资,帮助数据科学家管理数据标注流程】汇通达|国外创投新闻|美国初创「Heartex」获2500万美元A轮融资,帮助数据科学家管理数据标注流程

文章图片


据外媒TechCrunch报道 , 美国数据标注公司「Heartex」近期完成2500万美元A轮融资 , 由Redpoint Ventures领投 , Unusual Ventures、Bow Capital和Swift Ventures跟投 。 据悉 , 本轮融资资金将用于提升产品以及人才拓展 。
软件工程师Michael Malyuk、Maxim Tkachenko和Nikolay Lyubimov于2019年在旧金山创立Heartex , 旨在创立数据标签平台 , 为机器学习模型提供更加准确的训练数据 。
Label Studio后台管理页面
据McKinsey 2021 AI领域调查报告 , 2021年企业AI使用率上升至56% , 高于2020年的50% , 常用于产品开发、营销销售和战略财务的业务中 , 且由此带来的税前利润增长从2020年的22%上升至27% 。 当越来越多的企业使用AI模型辅助业务决策 , 那训练数据是否准确客观很大程度上也影响了其结果的可参考性 。 Heartex联合创始人兼CEO Michael Malyuk表示 , 一定程度上 , 部分算法的开发研究已经到了收益递减的地步 , 而优化数据标签是提升算法模型更具性价比的选择 。
模型通过标签来学习数据之间的关系 , 比如为厨房水槽的图片标注“厨房水槽”的标签 , 再基于模型学习 , 判断未标注图片是否属于厨房水槽这一类 。 但其中的问题 , 不仅是数据格式有图像、视频、音频、文本等不同类型 , 难以统一处理 , 还是专业领域标准门槛较高 , 比如法律合同、医学影像、研究文献等材料 , 人类注释者也难以保证没有疏忽 。
Malyuk认为 , 最可行的解决方案就是让具备专业知识的内部团队负责注释和管理训练数据 。 目前 , Heartex主要产品Label Studio面向数据工程师 , 支持不同行业、数据格式、AI模型的标签管理 , 同时提供数据质量管理、分析报告等功能 。 Heartex用户可以在后台管理不同注释者的标签注释情况 , 判断标签是否准确 , 并监控标签质量 。
Label Studio标签管理页面
在数据隐私方面 , Malyuk表示 , Heartex的数据平台和管理控制平台是分离的 , 可以保证客户存储数据的私密性 , 也不收集任何客户数据 , 并开源Label studio核心代码以供检查 。
目前 , Label Studio面向个人及非盈利团体免费 , 软件可以直接从GitHub中下载安装 , 主要付费用户是企业内部数据团队 。 Malyuk透露使用Heartex的数据科学家超过十万名 , 既有小型初创企业 , 也有全球100强 , 但并未透露具体收入 。
不少初创企业都已经注意到数据标签领域的巨大机会 。 除了36氪之前关注的AIMMO , 还有Labelbox、Scale AI和Snorkel AI , 以及Google和Amazon旗下的Google Cloud和SageMaker 所提供的数据标签产品 。 与其他产品不同的是 , Heartex并不提供数据标注服务 , 而是提供标注管理平台 。