碎片化|「小样本+AutoML」，改变算法生产的「核武器」？苏宁|土巴兔|家电|国美|功守道

数据、算法、算力，被称为AI的三驾马车。
其中，数据对于算法模型的效果至关重要：以深度学习为核心的AI，为了避免发生过拟合或欠拟合的情况，需要使用大量数据来进行模型训练，从而使模型达到更好的拟合优度，这对于解决场景问题无疑大有裨益。
不过，通过大量数据来训练算法，从理论上看无懈可击，但当AI走向落地场景，就不那么容易了。
以数据问题为例：
对于碎片化场景，数据成了老大难。
1、很多场景不具备数据采集的条件，或者说采集数据成本太高；
2、数据是否有效，无效的数据除了百无一用之外，还会形成噪声干扰，处理起来也费时；
3、一些场景数据量不够大，很难做到大样本。
没有足够量的数据，就难以训练出好的算法模型，解决场景问题也就无从谈起。
这实际上是产业数字化转型面临的重大难题之一：以人工智能为核心的数字化转型，在实际场景落地时，由于技术使用的先决条件存在短板，很难释放对产业转型的推力。
"从成本收益上看，在一些场景下，AI形如鸡肋，无法解决实际问题，更无法降本增效。"
中科智云CEO兼首席科学家魏宏峰告诉AI掘金志，数字化转型趋势下，隔行如隔山，整个市场需求都是碎片化的，这对AI而言提出了两大挑战：要么做场景定制化；要么改变现在的算法生产模式。
但这两种方式都逃不开前面提到的数据问题。
对于一些封闭场景，比如园区物流，通过场景定制化方案可以实现全自动化流程，然而这并不适用于碎片化的开放场景；此外，定制化成本过高，单独开发算法则会面对投入产出比严重不匹配的问题。
因而，比较合适的解决方法，是改变现有的算法生产模式。
这也是小样本学习（FSL）和AutoML（自动机器学习）火热的根本原因。
FSL与AutoML小样本学习属于机器学习下的一个分支，诞生于碎片化场景很难获取足够有效的数据这一背景下，旨在通过较少的数据量或样本，来训练算法模型。
与传统机器学习相比，小样本学习的优势在于，不需要大量数据支撑，但这同样也带来问题：数据量太少导致经验风险最小化不可靠。
所谓经验风险，是指模型关于训练样本集的平均损失。通常情况下，样本容量足够大（传统机器学习），经验风险最小化能保证有很好的学习效果；反之，样本量太小，经验风险最小化学习的效果就难以保证。
举个例子：
假设以小孩子为算法模型，汉字为样本数据，目标任务是认识汉字"我"。当小孩子抄写"我"的次数足够多，那么小孩子的学习效果就更好；反之，如果只抄写了数次，那么小孩子可能认识"我"，也可能不认识，经验风险是不可靠的。（案例并不严谨，仅供参考）
目前行业内已经开始通过数据增强、模型约束空间、搜索算法等方式来解决小样本学习存在的问题。
"如果模型能力足够强，对样本的需求并不一定要非常大。"魏宏峰表示，一个好的模型，可通过小样本学习来形成自我训练，从而提高算法精度与适应性。
而建立好的算法模型，与AutoML（自动机器学习）密切相关。
在传统AI算法开发流程中，从业务和问题定义，到数据采集和标注、存储管理、数据分析和可视化，再到模型结构设计、优化......最后到应用开发，需要经历大概十三个环节，其时间成本、开发成本处于高位。
对于没有算法开发能力，但有算法应用需求的企业而言，这个流程非常"复杂"，且成本较高，难以承受。
因而只专注于算法选取和神经网络架构搜索的传统AutoML是无法满足现实需求的，涵盖算法研发全流程的AutoML应运而生，从特征工程、模型构建、超参选择，优化方法四方面实现自动化，其优势在于：既减少了算法生产成本，又提高效率，并且降低了算法生产门槛。