碎片化|「小样本+AutoML」,改变算法生产的「核武器」?( 二 )


比如,传统AI算法生产流程中,需要对数据进行人工标注,并且花大量时间处理数据;可以通过自动标注,结合人工复检,来提高数据标注效率。
在业界,已经有许多较为成熟的AutoML平台,国外如FeatureLab(自动进行特征工程)、Google Cloud Vertex AI NAS;国内则有第四范式的AI Prophet AutoML等等。
除此之外,还有一些AI公司,比如中科智云,也在做相应的类似的平台(X-Brain)。
作为一家聚焦安全治理的AI公司,中科智云主要以X-Brain AI主动学习平台,融合小样本学习框架、多源融合感知计算等技术,为行业提供AI 安全治理服务。
"X-Brain 的核心是一套主动学习算法框架,应用自研的主动学习(Active Learning)技术,改变了监督学习的被动接受人工标注样本的模式。"
魏宏峰告诉AI掘金志,该平台可通过AI主动判断样本是否需要算法工程师的参与,通过只让算法工程师参与部分困难样本的确认,形成人在回路(Human-in-the-Loop)模式,主动训练模型,形成模型自动迭代。
前面提到,小样本学习是为了解决碎片化场景无法获取大量数据训练模型的问题,而AutoML是在传统算法模式下,通过主动学习来提高算法生产效率,解放人力成本。
【 碎片化|「小样本+AutoML」,改变算法生产的「核武器」?】换句话说,小样本学习解决数据难题,AutoML则是提高算法生产效率的新方法,两者互相结合,或能解决小样本学习存在的算法精度问题。
不可能三角?"小样本是低成本的基础,因为样本量小,训练模型不需要高算力硬件设备。"魏宏峰表示,如何让小样本学习达到商用精度,是一个巨大挑战。
因为,小样本学习存在经验风险最小化不可靠这一问题,也就是学习效果不确定,可通俗理解为算法精度可能高,也可能低。
"在一些场景中,小样本训练出来的精度,在初期很难达到商用水平。但可以通过AutoML来缩短从初期模型到商用这个过程。"
魏宏峰介绍道,X-Brain在采集样本之后,通过特征提取自动标注,并自动训练模型,由具体的业务人员来进行评价,查看是否发生误报,并调整参数。
基于这些调整,该平台的自动训练机制,将已标注完的数据放入重新训练......通过这种循环训练,来提高算法精度。
在这个过程中,样本量小,模型也不大,通过主动训练来提高精度,从而实现低成本使用。
所以,小样本、低成本和高精度之间,并非存在一个"不可能三角"。
仍以之前的小孩子识字为例:小孩子只抄写数次"我",其结果是可能认识"我",也可能不认识。如果引入老师进行引导、校正,那么即便抄写次数较少,其认识汉字"我"的可能更大。
这个案例中,老师扮演了业务人员的角色,小孩子就是算法模型。算法(小孩子)在自动学习过程中,需要由业务人员(老师)来调整参数(引导),学习效果也就更好。
其优势在于,给小孩子减负(减少抄写次数)的同时,提高学习效率(算法精度);从整个学习过程看,老师(业务人员)也无需全程监督,从而减少成本。
这实际上改变了以往的算法生产模式,将算法生产带入"平民化""低成本"时代。
AI与场景融合AI从上半场进入下半场,实际上是从拼技术到拼场景的转变:AI只有在实际场景中落地才能产生价值。
在产业数字化转型中,各种碎片化场景,对算法的精度要求也比较高。如果按照传统的算法生产模式,成本降不下来,加上中小企业购买力弱,传统企业数字化转型必然难产。
而多样化场景中,也很难以通用算法来"一口多吃"。