中国传统文化|基于AlphaGo的强化学习基础模型,对王阳明心学的现代分析

一、强化学习模型和性命模型的一致性
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,用于解决智能体(Agent)在与环境的交互过程中的学习问题。在围棋棋盘上频频打败人类的Alpha Go、Alpha Zero等人工智能的基本模型也正是强化学习模型。强化学习的特点在于“强化(Reinforce)”。所谓“强化”,就是通过和环境的持续交互,加强正确决策被实施的概率,同时降低错误决策被实施的概率。这个过程是智能体(Agent)在和环境互动过程中自主完成的,所以被称为学习过程。
如下图所示,强化学习的基础模型仅仅包含两个实体:智能体和环境。两者之间有三个交互渠道:智能体对环境的观察结果Q,智能体的行为A,智能体从环境中得到的奖励R。这三个参数是随时间变化的,所以下图中加上了t这个下标。
中国传统文化|基于AlphaGo的强化学习基础模型,对王阳明心学的现代分析
文章插图

强化学习的基础模型与中国传统文化中的“性命”学说极为相似。其中“性”指的是智能体与环境交互时表现出来的特性,主要表现为在面对不同环境(Q)时,所表现出来的思维方式(R)和行为方式(A)。用数学语言说,“性”即是由{Q、A、R}构建的一组向量集合。而其中的“命”则指的是环境。(可参考:
我们把“智能体”换成作为个体的“我”,就会发现,强化学习的基础模型实际上也是“我”和“世界”交互模型。要理解这个模型中,我们首先需要定义“我”和“世界”,这样就涉及到一个古老的哲学的:我是谁?
中国传统文化|基于AlphaGo的强化学习基础模型,对王阳明心学的现代分析
文章插图

在强化学习的模型图中,“大脑”是智能体的代表,但是人的“身体”又扮演什么角色呢?难道我们的“身体”不属于自身,而属于环境吗?实际上,对于“我是谁”这个哲学问题,有着不同的答案,而且对答案的不同选择意味着不同的“世界观”。阳明心学的世界观与上图中的表达是一致的,即“我是大脑”,而不包括身体,用心学的术语就是“心即我”,更详细的分析可参考:
当然,我们也可以把身体作为智能体的一部分,尤其在涉及艺术、体育领域的学习时,没有身体的“我”无法拿起画笔、触碰琴键,也无法做出各种舞蹈和体育动作。而艺术、体育类的学习不仅涉及到思维训练,同时涉及到肌肉训练。我们今天要讨论的是阳明心学,所以暂时放下身体,而只关心思维。
要理解“心”就是“我”,我们用机器人来类比。
中国传统文化|基于AlphaGo的强化学习基础模型,对王阳明心学的现代分析
文章插图

我们把“人”看作是一台由计算机组成的简单“机器人”。机器人的摄像头等效为人的五官,硬盘就如人的记忆,CPU就是人的思维。假设有一个叫“小易”的机器人通过摄像头去观看世界,用CPU对观察到的图像信息进行处理,处理后形成概念和认知数据,这些数据放在硬盘之中。这样,当我们提到机器人“小易”时,我们指的不仅他的硬件系统,也包括硬盘中存储的信息。甚至,硬件系统也是不重要的,因为我们可以把硬盘中的内容拷贝到另一台计算机中。确保机器人“小易”是“小易”的是它硬盘中存储的信息。
中国传统文化|基于AlphaGo的强化学习基础模型,对王阳明心学的现代分析
文章插图

而对机器人“小易”而言,它所理解世界也只是硬盘中存储的世界,它并不知道、也无法确认外部世界究竟是什么样的。摄像头是他观察世界视角,CPU则完成对信息的整理。尽管人的意识(CPU)、记忆(硬盘)是一体的,但我们也可以说,外间世界对人类个体而言,也只是大脑中存储的记忆而已。