数据、算法、算力,被称为AI的三驾马车。
其中,数据对于算法模型的效果至关重要:以深度学习为核心的AI,为了避免发生过拟合或欠拟合的情况,需要使用大量数据来进行模型训练,从而使模型达到更好的拟合优度,这对于解决场景问题无疑大有裨益。
不过,通过大量数据来训练算法,从理论上看无懈可击,但当AI走向落地场景,就不那么容易了。
以数据问题为例:
对于碎片化场景,数据成了老大难。
1、很多场景不具备数据采集的条件,或者说采集数据成本太高;
2、数据是否有效,无效的数据除了百无一用之外,还会形成噪声干扰,处理起来也费时;
3、一些场景数据量不够大,很难做到大样本。
没有足够量的数据,就难以训练出好的算法模型,解决场景问题也就无从谈起。
这实际上是产业数字化转型面临的重大难题之一:以人工智能为核心的数字化转型,在实际场景落地时,由于技术使用的先决条件存在短板,很难释放对产业转型的推力。
"从成本收益上看,在一些场景下,AI形如鸡肋,无法解决实际问题,更无法降本增效。"
中科智云CEO兼首席科学家魏宏峰告诉AI掘金志,数字化转型趋势下,隔行如隔山,整个市场需求都是碎片化的,这对AI而言提出了两大挑战:要么做场景定制化;要么改变现在的算法生产模式。
但这两种方式都逃不开前面提到的数据问题。
对于一些封闭场景,比如园区物流,通过场景定制化方案可以实现全自动化流程,然而这并不适用于碎片化的开放场景;此外,定制化成本过高,单独开发算法则会面对投入产出比严重不匹配的问题。
因而,比较合适的解决方法,是改变现有的算法生产模式。
这也是小样本学习(FSL)和AutoML(自动机器学习)火热的根本原因。
FSL与AutoML小样本学习属于机器学习下的一个分支,诞生于碎片化场景很难获取足够有效的数据这一背景下,旨在通过较少的数据量或样本,来训练算法模型。
与传统机器学习相比,小样本学习的优势在于,不需要大量数据支撑,但这同样也带来问题:数据量太少导致经验风险最小化不可靠。
所谓经验风险,是指模型关于训练样本集的平均损失。通常情况下,样本容量足够大(传统机器学习),经验风险最小化能保证有很好的学习效果;反之,样本量太小,经验风险最小化学习的效果就难以保证。
举个例子:
假设以小孩子为算法模型,汉字为样本数据,目标任务是认识汉字"我"。当小孩子抄写"我"的次数足够多,那么小孩子的学习效果就更好;反之,如果只抄写了数次,那么小孩子可能认识"我",也可能不认识,经验风险是不可靠的。(案例并不严谨,仅供参考)
目前行业内已经开始通过数据增强、模型约束空间、搜索算法等方式来解决小样本学习存在的问题。
"如果模型能力足够强,对样本的需求并不一定要非常大。"魏宏峰表示,一个好的模型,可通过小样本学习来形成自我训练,从而提高算法精度与适应性。
而建立好的算法模型,与AutoML(自动机器学习)密切相关。
在传统AI算法开发流程中,从业务和问题定义,到数据采集和标注、存储管理、数据分析和可视化,再到模型结构设计、优化......最后到应用开发,需要经历大概十三个环节,其时间成本、开发成本处于高位。
对于没有算法开发能力,但有算法应用需求的企业而言,这个流程非常"复杂",且成本较高,难以承受。
因而只专注于算法选取和神经网络架构搜索的传统AutoML是无法满足现实需求的,涵盖算法研发全流程的AutoML应运而生,从特征工程、模型构建、超参选择,优化方法四方面实现自动化,其优势在于:既减少了算法生产成本,又提高效率,并且降低了算法生产门槛。
- 小米科技|过年想拍出人人夸赞的大片?当下最强的四款「影像旗舰」
- 超算中心相继投运 AI产业化困局破解了?
- Java|Java程序员该如何准备明年的「金三银四」跳槽季,你准备好了吗?
- 创业|Java程序员该如何准备明年的「金三银四」跳槽季,你准备好了吗?
- pi|「数码晚报」中国电信宣布5G消息正式商用:个人接收免费 发送按短信收费
- 魅族手机|拒绝眯眯眼,魅族手机靠文化自信出圈!补齐短板后,新旗舰要火!
- 产业化|商汤启动华东首个超大型AI计算中心,人工智能产业化再进一步
- 邓志伟|Innovusion与蘑菇车联达成战略合作,加速高级别自动驾驶商业化落地进程
- 梁稳根|中国前首富强势回归,身家曾是马化腾2倍,儿子险些被绑架
- 多云|VMware永葆青春的秘诀,从虚拟化、私有云到多云管理的进化