下一代 AutoAI:从模型为中心,到数据为中心( 四 )


王孝宇:第一阶段主要是在学术的范畴 , 比如学者们发起AutoMLConference2022 , 大家主要在探索算法模型设计的哪些环节能够用自动化的方式去完成 , 以及用何种方式去实现自动化 , 比如如何实现神经网络结构搜索、超参数优化、混合算法选择等等 。
第二阶段是打造出自动化的算法模型生产系统 , 把第一阶段积累的方法论沉淀为平台和系统 , 以低代码甚至零代码的方式实现自动化算法模型训练 。 但这类平台并没有把模型迭代的过程落实到系统中去 , 没有覆盖真正模型训练的完整生产周期 , 所以满足不了工业化生产的需求 , 我把这个阶段的AutoML定位成一个「玩具」 , 玩一玩可以 , 但是不能真正用到实际任务中 。 因为没有任何一个工业化生产的模型只训练一次技术就可以了 , 它是需要迭代的 。
而我们正在做的是第三阶段的AutoML , 即打造面向产业应用的自动化模型训练平台 。 据我们的市场调研 , YMIR是市场上唯一一个覆盖模型生产的全生命周期的系统 , 它可以真正地用到工业化生产中 。 可以认为 , 早期的AutoML偏向于纯技术 , 而YMIR更强调实际的工业应用 。 我们做的是一个产品系统 , 所以我们考虑的不仅是技术的问题 , 还有工程和系统的问题 。
AI科技评论:AutoML和AutoAI两个概念有什么区别?
王孝宇:我认为 , 我们比较合适将AutoML的概念限制在它的第一阶段 , 它专注于技术 。 MachineLearning也只是人工智能技术之一 , 生产系统其实并不是传统意义的AutoML , 只是我们现在还找不到一个合适的词去概括它 。 相比较而言 , AutoAI能更好地概括我们现在做的事情 。
AI科技评论:为什么说数据越来越重要?
王孝宇:数据和算法等技术是相辅相成的 。 而最终技术如果要满足应用需求 , 数据到位是不可或缺的一环 。
算法可以将AI模型精度从50%提高到60% , 但还是不能最终解决应用中实际的问题 , 而数据可以将AI系统精度从60%提高到90% 。 因为模型的设计逐渐趋同、技术趋向成熟 , 这时数据的迭代变得比技术本身更重要 。 算法技术一直都很重要 , 但往往落地的临门一脚 , 需要数据来推动 。
AI科技评论:现在已经有别的AI模型生产平台声称其训练一个模型只需要十几分钟 , 您怎么看?
王孝宇:模型要真正能部署到现实系统中去、真正能跑起来才有用 。 宣传训练一个模型需要多短的时间是没有意义的 , 因为真正耗时间的是数据 。 模型训练可能只需要十几分钟 , 但百万的数据标注也需要花费一个月 。 在一个模型的全生产周期中 , 我们首先要对问题进行定义 , 之后收集数据 , 再去训练模型 。 将训练完的模型用到现实的场景中 , 看是否存在什么问题 , 然后再次收集大量的数据去做迭代 , 这个迭代的过程是很长的 。
我们的很多算法人员将90%的时间都用在数据的处理上 , 只有10%的时间用来写代码和研发模型结构 。 互联网的数据相对容易获得 , 但也需要大量的工作 , 因为数据的噪声很大 , 尤其是随着这一波人工智能的应用场景慢慢下沉到线下 , 数据的噪声变得更大 。 例如传统企业中质检员拍摄的图像数据、数据标注质量也会因为质检员的个人素质差异而不同 。
AI科技评论:YMIR平台包含数据的自动标注吗?
王孝宇:我们提供预标注 。 所谓的“自动标注”是一个伪概念 , 最起码在现阶段没有一个平台可以真正做到完全自动标注 , 现在还需要人去介入 , 比如说做井盖检测时 , 我们提前给井盖画一个检测框 。 如果画对了 , 标注人员就直接过审;如果没对 , 标注人员还要再修改 。