下一代 AutoAI:从模型为中心,到数据为中心( 三 )


YMIR是一个开源的、公益性的AI模型生产平台 , 是我们和国际知名高校以及硅谷科技公司一起联合发起的国际开源项目 。 我们还邀请到了多家美国科技巨头公司的首席AI官担任我们的项目顾问 。 该项目已经在GitHub上开源 。
下一代 AutoAI:从模型为中心,到数据为中心
文章图片
Github地址:https://github.com/industryessentials/ymir
YMIR:覆盖模型生产全流程 , 聚焦模型的快速迭代能力
有了这些技术的支持之后 , 我们打造了一个工程化的系统YMIR 。 YMIR覆盖模型生产全流程 , 聚焦在模型的快速迭代上 。 我们不是训练出一个模型就结束了 , 而是把模型(通过数据)迭代到能够满足现实场景的需求为止 。
下图是整个技术的框架 , 左边是模型生产的初期阶段 , 包括数据的准备、数据的标注、模型的训练 , 右边是一个迭代的过程 , 包括准备挖掘数据、数据标注、更新训练集、再次做模型的训练 。
下一代 AutoAI:从模型为中心,到数据为中心
文章图片
研发实践:算法生产效率提升6倍 , 算法人员需求降1/10
我们做了很多大规模研发实验 , 来看看在实际生产的时候 , 它到底能不能解决问题 。 我们做了大概6个月的跟踪 , 投入了10个标注人员 , 他们要么是高中生 , 要么是职业院校毕业的学生 , 当然也有算法人员 。 我们目前不能完全脱离算法人员 , 在面对一个问题的时候 , 怎么将其分解成技术实现 , 这还需要算法人员介入 。 同时 , 我们还需要算法人员给标注人员做一些简单的系统培训 。 算法人员投入0.3左右 , 即他们花费一天中的30%的时间去做这些事 , 其余时间他们还要做算法研发、标注文档的审核、模型迭代情况的查看以及发现模型的问题 。
我们标注的图片总数是75万 , 标注图片框数100万 。 标注人员的工作内容的90%用在标注上 , 把要检测的物体标注出来 , 10%的时间是用在操作YMIR系统上 。 我们在3个月的时间里 , 使用10个标注人员、0.3个算法人员 , 生产了50个算法 , 而且这些算法大部分能够满足实际应用的需求 , 比如应急事件中的灭火器检测、消防栓检测等城市治理的需求 。 有的算法都已经达到97%的精度 。
这是我们使用这套系统和不使用这套系统的投入时间对比:
下一代 AutoAI:从模型为中心,到数据为中心
文章图片
周期都是三个月左右 , 没有这套系统的时候 , 算法人力的投入大概是36人/天 , 标注人员的投入是24人/天 , 模型生产了六个算法 。 在投入了这一套系统之后 , 我们在相同的时间周期内可以生产51个算法 , 生产效率大概是17个算法/月 , 而以前是3个算法/月 。 使用自动化平台后 , 算法生产效率提升了6倍 , 但是算法人员的需求降为原来的1/10 。 (公众号:雷峰网)
3对话王孝宇
AI科技评论:云天励飞是一家算法公司 , 为什么会研究AutoAI?
王孝宇:我们不是一家单纯生产算法的公司 , 我们为客户提供端到端的AI解决方案 。
同时我们意识到我们国家技术智能化、信息化的基础还比较薄弱 。 我们希望5年之后 , 公司都认识到AI的重要性 , 投入去做AI升级的时候 , 自动化的AI平台将为他们节约大量的成本 , 并成为AI大规模普及的催化剂 。 而当AI成为不可或缺的部分的时候 , 才有平台化的硬件、平台化的生产力工具、平台化的服务的机会 。 我们希望YMIRAutoAI系统能推动行业的进步 , 并促使公司进入下一代人工智能技术及服务的研发 。
AI科技评论:您提到AutoML经历了三个发展阶段 , 它们的本质不同在什么地方?