标准化|云天励飞王孝宇：AI 研发和应用，数据的重要性远高于模型( 二 ) 基础设施|区块链|自动码垛机

在垦荒的过程中，我们回过头来看AI，落地应用的最大瓶颈是什么？
人才太贵了。
六年前，我们招聘AI博士的时候，给到40万美金一年，光是养一群技术人员，每年的人力成本就是一个巨额数字。但是现在，这项成本正在降低，究其原因，是AI的研发模式发生了变化。
AI的研发模式，有两个关键点。首先，有什么样的数据训练模型；其次，如何用各种技术基于数据来让模型取得更好的效果。
过去，大家把重心放在模型上，需要数据就要找，不停标注，标注完以后，就是专家干的事了，天天调模型参数、损失函数、优化器，很多AI博士毕业之后就干这个事。
这个事其实跟工业化时代拧螺丝钉的工作没太大区别，但没有博士相关的学习经历，还干不了这个事，所以很难规模化、产业化。
我们之前的研发范式，都是集中用更好的技术建立更好的模型上的，但现在不是那么回事了。
12月8日，Andrej Karpathy 发了一个推文，他是李飞飞的学生，毕业之后去了特斯拉，担任无人驾驶总监。他说，现在的AI技术都趋同了，大家都一样。
什么意思？
以视觉为例，五六年前，做自然语言处理的有一套技术，做图像识别的也有一套技术，但是做了五年之后，大家发现做的技术是一样的。不管是视觉、语音还是自然语言处理，大家用的都是同一套技术框架和模型架构来解决问题。
最近，机器学习领域的国际顶尖会议NIPS也提到：慢慢的，那些通用模型的结构，已经占据所有任务的主导地位了。
这有点像通信或编码时期，大家刚开始是百花齐放的，后来慢慢的，大家都用同一套技术架构解决所有的问题，也就是走向了标准化阶段。
如果把这两个模型研发的过程放在一起做比较，我认为更重要的，不是模型有多好，而是数据有多优质。
有句话说得好：“巧妇难为无米之炊”，你的厨艺再好，没有素材做不出任何东西，所以有好的数据才是最重要的。
在云天励飞十多年的研发过程中，我们发现，如何高效地获取最好的数据，比模型本身要重要得多。
因为技术是很容易赶上的，今天这个技术不行，可能再过三个月、六个月会有新技术出现，会不停地更新迭代。但数据的迭代效率往往没那么高，而且我们也发现，在研发过程中，90%以上的时间是放在数据上的，而不是做模型。
由此带来研发观念的转变：之前我们的观念是招聘最好的人，开发最好的技术，达到最好的效果。但实际不是这样的，如何在最短的时间内，得到可以使模型达到最优效果的数据集，这才是最重要的。
云天励飞从创立到现在，从来没有一个研发任务是，把数据收集好，模型做一遍就结束了，这个模型永远要在用户的实际场景中迭代。
怎么在实际场景中迭代？
需要在做的不够好的地方，把数据收集起来。也就是说，数据集的分布会慢慢让模型的精度达到最好。
云天励飞对研发部门KPI的制定，不仅仅是训练出了多少模型，或者说模型的精度是多少。而且明确把数据集的产生作为KPI的导向之一，它其实更重要。
优秀的开发者和一般的开发者之间，对数据的认知是不一样的，优秀的开发者对数据有非常良好的认知，模型被数据cap得很明显，在最短的时间内拿到最好的数据，才能做到最好的模型精度。
为什么说模型大规模生产？
因为现在面向城市治理算法的应用，已经不仅仅是几个算法模型了。大家经常一看，有几百个模型的需求，但企业不可能招几百个人做这个事，所以需要大规模地跑这些技术，必须要有平台化的东西进行研发。