中国传统文化|基于AlphaGo的强化学习基础模型,对王阳明心学的现代分析( 二 )


我们再梳理一下,尽管作为当代人类的我们相信“物理学给出来的那个有起点的无穷无尽的宇宙是真实存在的”,但是我们却无法感知到那个“宇宙”。我们观察到的宇宙只是由Q描述的宇宙。尽管通过物理学理论,我们可以用有限的观察结果Q,去精确把握环境,但是客观的“大宇宙”,只是智能体思维的结果,而非直接感知到的世界。以上观点,本质上是经验主义的观点。哲学中的理性主义和经验主义从柏拉图和亚里士多德时期就开始交锋,至今依然强烈对立。但是,由于现代科学是经验主义的,所以,以上看法本质上是科学的。(可参考:
二、基于阳明心学的强化学习模型细化
言归正传,基于强化学习的基础模型,我们就可以理解阳明心学中的逻辑了。
每一个人对世界的观察结果Q,可以表示为{眼,耳,鼻,舌,身,意}六个感官输出的信息集合。这类信息分为两层:一层是感官直接输出的直观信息,康德称为“感性杂多”,因明逻辑称为“现量”;第二层则是概念,是第一层信息经由思维整理后形成的认知,康德称为“经验”,因明逻辑称为“比量”。概念已经与思维相关了,前面所说的物理学的宇宙,本质上就是通过对“感性杂多”的整理而形成的概念认知。这个概念形成的过程,就是现代自然科学的认知过程。而且,科学认知过程对奖励R是有影响的。考虑到本文主要讨论阳明心学,同时由于对概念形成的分析在中国传统文化中是缺失的,自然也不在阳明心学的体系中。我们将人对世界的观察结果Q设定为人人一致的,而不考虑人与人之间对自然科学认知的差别。(关于科学认知与中国传统思维之间的关系,可参考:阳明心学之“乐”和康德的“美”的对比和融合)
中国传统文化|基于AlphaGo的强化学习基础模型,对王阳明心学的现代分析
文章插图

而人能够影响世界的行动方式A则是{言,行}组成的集合。《易传系辞》有云:
言行,君子之枢机。枢机之发,荣辱之主也。言行,君子之所以动天地也,可不慎乎!
可见中国古人认为自己言论和行为是极为重视的,认为言行既关乎个人荣辱,也可“动天地”。对于Q和A的可能空间,对每一个健全的人都是一样的。人与人之间的不同不在于Q和A,而在于R,即奖励函数。奖励函数用心学的术语表达就是“性”。《传习录》记载了王阳明关于“性”的说法:
性无不善,故知无不良。良知即是未发之中,即是廓然大公、寂然不动之本体,人人之所同具者也。
可见,在王阳明那里,奖励函数R的基础算法对每一个人都是一样的,并没有“不善”之说(“四句教”第一句:无善无恶心之体)。以现代算法思维可以理解为奖励函数的结构是一样的,或者说算法的形式是一致的。《传习录》中又说:
乐是心之本体,虽不同于七情之乐,而亦不外于七情之乐。
“乐”作为心的本体,可以理解最终判断力,在强化学习模型就是奖励函数的输出,“乐”有正负、大小之分。这样R可记为:
R={乐},其中“乐”取值可理解为整数,有正负也有大小。
显然,“乐”是观察结果Q以及行为方式A的函数,即:
R=f(Q,A)。
这里的函数f就是对“性”的抽象,包含人类先天的本能,以及后天形成行为习惯。
值得一提的是,德国古典哲学家康德对函数f的处理具有天才般的洞见。他把人性对Q的初始响应分为两类:{愉悦、不愉悦},这个愉悦与不愉悦的初始判断来自人的“趋利避害”的本能,康德认为正向的愉悦中包含了“美”的判断。我们根据环境计算出愉悦为正,则“往前走”;如果为负,则“逃避”。这是基于动物本能的反应。但是,人与动物不同的是,人具有理性。理性会对函数f输出“不愉悦”的情况进行反思,会产生另一种更高级的“愉悦”,即“崇高”。当“崇高”的愉悦大于本能的愉悦时,函数f的输出依然为“愉悦”,这时候人的行为表现为某种牺牲精神,康德称之为智性的愉悦。康德的认知,对于理解儒家“仁义礼智”,尤其是其中的“礼”有很大帮助。(可参考本账号下的有关“美”、“仁义礼智”的文章)