下一代 AutoAI:从模型为中心,到数据为中心( 二 )


模型和数据之间的关系可以这样类比(这是我个人的理解 , 不代表其他人的看法):模型和数据分别类比为一个人的IQ和知识储备 。 假设一个人天生的IQ很高 , 如果从小就把他养在家里 , 永远不跟社会打交道 , 也不让他学习新的知识 , 那么他还是会成长为一个很笨的人 。 而即使一个人资质平平 , 但如果他见过全世界各地的事物 , 去过欧美留学 , 在中国做过实际的工业化生产 , 看过很多设计的案例 , 那么他可能比那个IQ高的人更厉害 。 所以如果这样理解 , 模型就有点类似于IQ , 数据就有点类似于知识 。 二者同等重要 , 但到后面你会发现知识越来越重要 , 因为只有亲历过你才能知道 , “知道”比“不知道”更重要 。
在工业化大规模发展中 , 大家正在慢慢地从模型为中心的生产转化为以数据为中心 。 下图显示的是吴恩达所做的一些实验对比:
下一代 AutoAI:从模型为中心,到数据为中心
文章图片
我们可以看到 , 当我们有了一个基础算法之后 , 我们可从两个维度来提高它的性能 , 一是以模型为中心的方法 , 即想尽各种办法提高模型设计的复杂度、技术含量等;二是以数据为中心的方法 , 比如加数据(加数据也是有一些科学方法的 , 并不是加了数据后性能一定会提高)、检查数据有没有问题等等 。 他发现 , 以数据为中心的方法比以模型为中心的方法能更多地提高性能 。 我们自己做模型生产时也得到这样一个结论:越到后面 , 数据的迭代越来越重要 。 因为所有模型的服务实际上是针对某一个特定场景 , 使用的是特定的数据 。
在我们过去八年的实践中 , 我们发现 , 算法的迭代事实上变成了数据的迭代 。 另外一个维度看 , 到现在为止 , 我们已经研发了大量算法模型 , 但从来没有一个模型是搜集了一次数据、调整一次参数就不用再调整了 , 很多模型都迭代了5-6年 , 迭代的主要内容就是数据 。 因为我们解决不同的需求时 , 会遇到不同场景下的泛化性问题 , 我们碰到的问题越来越不一样 。 这并不是算法不一样的问题 , 而是场景不一样 , 要处理的数据也不一样 , 所以我们要不停地更新迭代数据 , 才能够满足不同场景应用的需求 。
既然算法迭代已经变成了数据迭代 , 那么有没有办法把数据的迭代也自动化呢?如果算法设计可以自动化 , 那数据迭代也可以自动化 , 所以端到端地完成自动化的AI模型生产平台就逐渐成为可能 。
而数据迭代的自动化需要技术的支持 , 同时还需要系统层级的支持 。
2YMIR:自动化AI模型生产平台
为什么要做AI模型生产的平台化?如今 , 有自动化AI模型生产平台需求的 , 已经不仅仅是谷歌、微软、Meta、IBM、苹果等大公司了 , 我们国内就有不少房地产公司开始投入AI 。 他们都有人才的需求 , 自动化的AI可以降低他们的成本 。 地产公司、物业公司 , 以及像宁德时代这样做电池的公司 , 都在慢慢引入AI来解决实际问题 。
为什么会这样?因为:“AI是新时代的电力” 。 AI是一个非常基础的能力 , 可以提高我们做事情的效率 , AI并不改变行业 , 但是可以提升所在行业的生产效率 , 所以这种影响是全方位的 , 已经慢慢地波及到非技术类公司了 。 更不用说现在广泛的制造业 , 制造过程中的很多环节都可以利用到AI的能力 。 如果想提高自己的国际竞争力 , 提升自己的生产质量 , 就需要AI的能力去赋能生产 。
但问题又来了 , 我们没有这么多AI人才 , 我们需要更scalable的方法进行AI的研发 。 因此我们就做了YMIR这样一个自动化模型生产系统 。