中国传统文化|基于AlphaGo的强化学习基础模型，对王阳明心学的现代分析生态|人工智能|青海省|国家公

一、强化学习模型和性命模型的一致性
强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，用于解决智能体（Agent）在与环境的交互过程中的学习问题。在围棋棋盘上频频打败人类的Alpha Go、Alpha Zero等人工智能的基本模型也正是强化学习模型。强化学习的特点在于“强化（Reinforce）”。所谓“强化”，就是通过和环境的持续交互，加强正确决策被实施的概率，同时降低错误决策被实施的概率。这个过程是智能体（Agent）在和环境互动过程中自主完成的，所以被称为学习过程。
如下图所示，强化学习的基础模型仅仅包含两个实体：智能体和环境。两者之间有三个交互渠道：智能体对环境的观察结果Q，智能体的行为A，智能体从环境中得到的奖励R。这三个参数是随时间变化的，所以下图中加上了t这个下标。

文章插图

强化学习的基础模型与中国传统文化中的“性命”学说极为相似。其中“性”指的是智能体与环境交互时表现出来的特性，主要表现为在面对不同环境（Q）时，所表现出来的思维方式（R）和行为方式(A)。用数学语言说，“性”即是由{Q、A、R}构建的一组向量集合。而其中的“命”则指的是环境。（可参考：
我们把“智能体”换成作为个体的“我”，就会发现，强化学习的基础模型实际上也是“我”和“世界”交互模型。要理解这个模型中，我们首先需要定义“我”和“世界”，这样就涉及到一个古老的哲学的：我是谁？

文章插图

在强化学习的模型图中，“大脑”是智能体的代表，但是人的“身体”又扮演什么角色呢？难道我们的“身体”不属于自身，而属于环境吗？实际上，对于“我是谁”这个哲学问题，有着不同的答案，而且对答案的不同选择意味着不同的“世界观”。阳明心学的世界观与上图中的表达是一致的，即“我是大脑”，而不包括身体，用心学的术语就是“心即我”，更详细的分析可参考：
当然，我们也可以把身体作为智能体的一部分，尤其在涉及艺术、体育领域的学习时，没有身体的“我”无法拿起画笔、触碰琴键，也无法做出各种舞蹈和体育动作。而艺术、体育类的学习不仅涉及到思维训练，同时涉及到肌肉训练。我们今天要讨论的是阳明心学，所以暂时放下身体，而只关心思维。
要理解“心”就是“我”，我们用机器人来类比。

文章插图

我们把“人”看作是一台由计算机组成的简单“机器人”。机器人的摄像头等效为人的五官，硬盘就如人的记忆，CPU就是人的思维。假设有一个叫“小易”的机器人通过摄像头去观看世界，用CPU对观察到的图像信息进行处理，处理后形成概念和认知数据，这些数据放在硬盘之中。这样，当我们提到机器人“小易”时，我们指的不仅他的硬件系统，也包括硬盘中存储的信息。甚至，硬件系统也是不重要的，因为我们可以把硬盘中的内容拷贝到另一台计算机中。确保机器人“小易”是“小易”的是它硬盘中存储的信息。

文章插图

而对机器人“小易”而言，它所理解世界也只是硬盘中存储的世界，它并不知道、也无法确认外部世界究竟是什么样的。摄像头是他观察世界视角，CPU则完成对信息的整理。尽管人的意识（CPU）、记忆（硬盘）是一体的，但我们也可以说，外间世界对人类个体而言，也只是大脑中存储的记忆而已。