标准化|云天励飞王孝宇:AI 研发和应用,数据的重要性远高于模型( 二 )


在垦荒的过程中,我们回过头来看AI,落地应用的最大瓶颈是什么?
人才太贵了。
六年前,我们招聘AI博士的时候,给到40万美金一年,光是养一群技术人员,每年的人力成本就是一个巨额数字。但是现在,这项成本正在降低,究其原因,是AI的研发模式发生了变化。
AI的研发模式,有两个关键点。首先,有什么样的数据训练模型;其次,如何用各种技术基于数据来让模型取得更好的效果。
过去,大家把重心放在模型上,需要数据就要找,不停标注,标注完以后,就是专家干的事了,天天调模型参数、损失函数、优化器,很多AI博士毕业之后就干这个事。
这个事其实跟工业化时代拧螺丝钉的工作没太大区别,但没有博士相关的学习经历,还干不了这个事,所以很难规模化、产业化。
我们之前的研发范式,都是集中用更好的技术建立更好的模型上的,但现在不是那么回事了。
12月8日,Andrej Karpathy 发了一个推文,他是李飞飞的学生,毕业之后去了特斯拉,担任无人驾驶总监。他说,现在的AI技术都趋同了,大家都一样。
什么意思?
以视觉为例,五六年前,做自然语言处理的有一套技术,做图像识别的也有一套技术,但是做了五年之后,大家发现做的技术是一样的。不管是视觉、语音还是自然语言处理,大家用的都是同一套技术框架和模型架构来解决问题。
最近,机器学习领域的国际顶尖会议NIPS也提到:慢慢的,那些通用模型的结构,已经占据所有任务的主导地位了。
这有点像通信或编码时期,大家刚开始是百花齐放的,后来慢慢的,大家都用同一套技术架构解决所有的问题,也就是走向了标准化阶段。
如果把这两个模型研发的过程放在一起做比较,我认为更重要的,不是模型有多好,而是数据有多优质。
有句话说得好:“巧妇难为无米之炊”,你的厨艺再好,没有素材做不出任何东西,所以有好的数据才是最重要的。
在云天励飞十多年的研发过程中,我们发现,如何高效地获取最好的数据,比模型本身要重要得多。
因为技术是很容易赶上的,今天这个技术不行,可能再过三个月、六个月会有新技术出现,会不停地更新迭代。但数据的迭代效率往往没那么高,而且我们也发现,在研发过程中,90%以上的时间是放在数据上的,而不是做模型。
由此带来研发观念的转变:之前我们的观念是招聘最好的人,开发最好的技术,达到最好的效果。但实际不是这样的,如何在最短的时间内,得到可以使模型达到最优效果的数据集,这才是最重要的。
云天励飞从创立到现在,从来没有一个研发任务是,把数据收集好,模型做一遍就结束了,这个模型永远要在用户的实际场景中迭代。
怎么在实际场景中迭代?
需要在做的不够好的地方,把数据收集起来。也就是说,数据集的分布会慢慢让模型的精度达到最好。
云天励飞对研发部门KPI的制定,不仅仅是训练出了多少模型,或者说模型的精度是多少。而且明确把数据集的产生作为KPI的导向之一,它其实更重要。
优秀的开发者和一般的开发者之间,对数据的认知是不一样的,优秀的开发者对数据有非常良好的认知,模型被数据cap得很明显,在最短的时间内拿到最好的数据,才能做到最好的模型精度。
为什么说模型大规模生产?
因为现在面向城市治理算法的应用,已经不仅仅是几个算法模型了。大家经常一看,有几百个模型的需求,但企业不可能招几百个人做这个事,所以需要大规模地跑这些技术,必须要有平台化的东西进行研发。