第四范式陈雨强:企业智能决策的下一代技术“强化学习+环境学习”( 三 )


环境学习技术的出现正好解决了强化学习技术落地成本高、不可逆等业界难题 。
第四范式陈雨强:企业智能决策的下一代技术“强化学习+环境学习”
文章图片
具体来讲 , 环境学习综合了专家知识、机理模型和数据驱动的机器学习能力 , 能够构建更为精准的虚拟环境 , 因此可以为决策提供更加精准的预判 , 定量推演在不同决策情况下的业务发展 。 同时 , 构建的虚拟环境可以帮助强化学习做低成本试错和策略迭代 , 加速了强化学习的产业应用进程 。
基于强化学习和环境学习的智能决策技术 , 能够充分发挥机器的优势 , 实现数据驱动的定量决策 , 在实时决策的同时 , 快速跟上业务及环境的变化 , 做到面面俱到的「机器理性」 。 同时也弥补了数字孪生、仿真模拟的缺陷 , 打通OODA闭环 , 让AI技术能够在供应链、产品研发、派工排产、精准营销等复杂场景中做出更好的决策效果 。
第四范式陈雨强:企业智能决策的下一代技术“强化学习+环境学习”
文章图片
新一代自主决策方案加速决策智能产业落地
供应链是决策智能的典型应用场景之一 。 以供应链优化中的智能补货场景为例 , 业务的核心目标是通过销量预测进行供应链补货 。 传统方案会根据专家经验进行滑动销量预测 , 然后根据预测结果制定调拨计划 。 但当面临618等促销活动 , 或者某地区突发疫情导致的商品需求激增时 , 需要尽早预判并快速调拨货物 。
第四范式采用了如下模式:利用自动机器学习(AutoML)做销量预测 , 同时用自动强化学习+自动环境学习做策略优化(库存计划/补退货/库存) 。
第四范式陈雨强:企业智能决策的下一代技术“强化学习+环境学习”
文章图片
传统销量预测方案不能预测大单量和机会损失量 , 预测销量也与实际销量偏差较大 。 同时 , 模型效果依赖于大量的特征工程 , 缺少归因分析和领域知识 。 第四范式基于AutoML的销量预测方案结合了历史销量、商品数据、时间数据、节日数据、地理数据、天气数据和促销数据等诸多因素 , 以更优的预测模型辅助实现更智能的决策 。
第四范式陈雨强:企业智能决策的下一代技术“强化学习+环境学习”
文章图片
在此基础上 , 利用环境学习搭建模拟器去模拟现有库存率和现货率 。 该方案具备数据友好、模型保持高保真度、高灵活度、利于传统机理模型结合等优势 。
第四范式陈雨强:企业智能决策的下一代技术“强化学习+环境学习”
文章图片
相较于传统决策方案(即补货结果=预测销量+安全库存﹣当前库存) , 基于强化学习+环境学习的决策方案能够实现最优且动态的自主决策 , 且效果有较大提升 。
第四范式陈雨强:企业智能决策的下一代技术“强化学习+环境学习”
文章图片
来伊份基于自主决策方案构建了智能供应链体系 , 完成了从顶层的订单履约达成率和库存周转分解到销售预测、商品定价、库存管理、物流配送能力等完整的供应链业务数据化 , 实现了计划与调度方案可根据不同的业务环境自动输出决策结果 , 保证了供应链数据透明、可试算、可追溯 , 计划与执行结果可评估、可分析 , 同时实现业务的可视、可控、可优化 。
最终 , 智能供应链实现了38万长尾商品系统智能补货 , 约3000个门店系统自动补货调拨;销售预测准确率提升1倍;销售现货率达到95%以上;全渠道的盘货管理预计可节约20万人时/每年人效 , 节约库存资金数亿元 。
随着技术的发展和演进 , 智能决策技术正在成为传统企业数字化转型中不可或缺的核心技术 , 也加快了产业互联网进程 。 我们也希望能有更多优秀的企业、人才关注决策智能领域 , 共同推动技术产业化落地与发展 。