第四范式陈雨强：企业智能决策的下一代技术“强化学习＋环境学习”( 二 ) 机器之心报道机器之心编辑部

决策智能的关键：在动态环境中持续、快速找到最优决策
决策智能技术是解决这类复杂问题的关键，其核心是通过技术手段利用机器模拟人的决策思维方式。美国知名专家JohnBoyd曾提出了OODALoop决策周期理论，被广泛用于概括企业的决策闭环，分别是Observe（观察）、Orient（判断）、Decide（决策）和Act（行动）。四个环节构成相互关联、相互重叠的循环周期。

文章图片
首先对企业进行全面“观察” ，为决策提供充足信息依据；然后在观察的基础上，精准“判断”所处现状及未来发展，为决策提供参考结论；接着根据当前现状和对未来的预判，制定较优“决策”方案，走好整个决策流程的关键一步；最后基于前三步的成果采取相应“行动” 。这一循环反复迭代，持续迭代决策结果。
其中，在整个决策周期中，能否理想地完成观察、判断和决策环节，决定了业务决策的整体质量和效果。
在没有人工智能的时代，企业主要以人为中心进行决策。不过人的计算能力是有限的，没有办法做到事无巨细的观察，获得的信息也不是最全面准确的，只能通过抓大放小的方式做出有限理性的判断和决策。同时，这种决策趋向于整体的决策，无法做到非常细节。庞大的企业组织还会带来决策效率等问题。
此前，也有诸如数字孪生、模拟仿真和运筹学等技术来辅助人做决策。
数字孪生利用传感器、业务系统收集的数据，打造一个反映物理世界全生命周期的数字化系统。该技术的核心价值是帮助企业更及时、细致的观察业务发展，即实现了OODA的第一步——观察。
传统的仿真技术的核心是专家通过手工模拟器仿真模拟人的判断，即OODA第二步—判断。
运筹学则是通过数学模型模拟人的决策过程，即OODA的第三步——决策。由于该技术通常可以给出理论最优解，被应用于各类决策场景中。
可以看出，这些技术实现了OODALoop的部分环节，取得了一定的效果。然而在业务场景复杂化以及经营环境快速变化的当下，这些将“将复杂问题简化求解”、“决策结果相对滞后”的技术思路已无法有效地在动态环境下实时做出最优决策。
强化学习+环境学习：高效产出最优决策
强化学习是解决复杂化、精细化决策非常合适的方法。核心是通过智能体与决策环境不断地交互，形成反馈，在动态环境中不断试错找到最优决策的方法。过去，强化学习技术已经在围棋和电竞游戏领域得到了验证，如典型的AlphaGo和AlphaStar 。
相比于人和传统决策技术，强化学习更适合解决复杂实际决策问题。首先，得益于深度学习技术的发展，深度强化学习借助深度学习，使得决策策略可以融合复杂场景中的大量因素；其次，结合功劳分配（CreditAssignment）考虑连续决策的长期影响；同时依靠计算机强大的计算能力，提供大量精细化决策，并依靠分层强化学习技术，实现不同决策层级的自主决策。
但是问题在于，强化学习所需要的数据量往往是比深度学习大两到三个量级，如果真正把强化学习直接应用到现实中，企业往往无法承受获得数据的成本，以及试错的代价。
比如直接在真实的路况中使用强化学习来实现无人驾驶可能造成大量人员伤亡；或者在生产环节中直接应用有可能造成产品报废、产线异常甚至生产安全事故，这种结果是不可逆的。由于当前强化学习技术极低的样本利用效率，企业难以支撑强化学习大规模的试错成本与代价，这也是过去强化学习在游戏或固定边界中运用较好但在现实中无法广泛应用的原因所在。