标准化|云天励飞王孝宇:AI 研发和应用,数据的重要性远高于模型( 三 )


所以云天励飞在内部打造了一套标准化、流程化、平台化的研发方式。
什么叫流程化?
流程化的英文叫Streamline。不需要切换上下文就可以把所有的事情做完,现在美国的创业非常流行这样做,RPA也是同样的思路,做机器人流程自动化,把业务的流程放在无缝衔接的框架下完成。
只有在这种情况下,效率才是最高的,不需要一会儿做这个事,一会儿做那个事,频繁切换会影响工作效率。
标准化(standardization),把里面跟模型相关的非标准化的部分全部呈现在技术上,整个平台上只剩下标准化的东西。
这样做的好处是什么?容易学习,所以不需要博士做这个事情,可能本科生甚至是高中生就可以干这个事,从而把博士资源放在更紧要的地方。
平台化(platform),这也是整个软件行业的趋势。
标准化|云天励飞王孝宇:AI 研发和应用,数据的重要性远高于模型
文章插图

这张图是我们大规模算法研发的流程:
第一步,搜集数据,这时候数据是没有标注的。
第二步,做数据标注;
第三步,模型训练;
第四步,data mining,有了初始模型后,在海量没有标注的数据里找到可以提高性能的数据;
第五步,再进行标注。
如果把这个平台分成三步,前两步就是做初始模型的建立,后面就是做完整闭环,像飞轮一样,它在不停地转,每转一次都可以得到更好的精度。这个转法是在我们平台上实现的,不需要专家级别的人专门来做。
第一步,获取初始模型。
首先我们有分布式标注平台,开发人员可以定义一个任务。比如做街道下水道井盖有没有被人拿走的检测,也许我们会标注10-20个数据。
标注之后怎么办?这是学术界和工业界很火的大模型和无监督学习。
为什么我们在这里面放了大模型和无监督学习?刚才我们讲到,一开始我们想做井盖被人拿走的事实检测,我们一开始可能没有这么多标注好的数据,可能只有100个,但数据标注的效率可能是万分之一。
如果你想标1万个这样的数据,需要标1亿个data,这个量非常大。怎么办?
先标100个,为什么要用大模型和无监督学习配合这个数据去跑模型?就是为了让你初始模型的精度达到最高。
无监督和大模型最好的方式,本来100个数据训练出来的精度只有30%,用大模型和无监督学习的方法训练之后,精度可以达到80%,那挖掘数据的效率可以提高10倍,也就是说我少标了10倍的数据,一切都是为了后面数据迭代的效率来做的。
为什么大模型和无监督学习可以提高这个性能?虽然它自己没有标注数据,但它是被千亿、百亿级的数据训练出来的,知道井盖是什么样的,这种特征的编辑其实已经实现了,再配合少量数据的标注,就可以得到一个还不错的初始模型。
为什么要得到还不错的初始模型?因为数据迭代的效率会更高,首先是为了第一步方便。
第二步,我们不说模型迭代,而是数据迭代,因为我们认为模型的训练已经被标准化了,在平台上,点个按钮它就训练好了,不需要有模型训练的知识,我们专家的系统已经把它做好了。
所谓的数据迭代,就是在海量还没有标注好的数据中,找到能够提高模型性能的数据,进行主动学习。
传统模型研发的范式是缺数据再去标,但发现标过来的数据跟以前的分布是一样的,对模型的分布没有太大用处。所以需要用技术、算法找到对自己真正有用的数据,右边我们从海量数据中找出了9张有用的数据。
模型挖掘怎么做?在左边平台界面,点一个按钮,选一个数据集,可以自动在这里面挖掘,从几亿的数据里找到几张跟井盖相关的数据做训练,我们是用主动学习算法做数据择优的。