中国传统文化|基于AlphaGo的强化学习基础模型,对王阳明心学的现代分析( 三 )


在阳明心学,甚至整个儒学体系中,所谓修行,本质上就是改善奖励函数f的算法的过程。对于“乐”的计算,儒家则给出了自己的一套方法。这套方法首先输出“利、义、仁、德、道”一组中间结果(可参考本账号下对儒家人生观的分析)。再从这个中间结果中给出最终的“乐”之正负和大小。这样把奖励函数f分为两个函数f1,f2。其中,函数的f1的输入是对世界的观察和行动,输出则是一个数组{利、义、仁、德、道}。一种并不精确的数学描述:可以认为“利”的数值是整型,其余为布尔型,这是理性的判断。函数f2则是从这个输出中做出选择,选择的结果正是人生观的体现。
{利、义、仁、德、道}= f1(Q,A);
R=f2({利、义、仁、德、道})
对于函数f1,可以认为有客观性,即我们知道行为可能带来的结果。对于函数f2,儒家的采用的是一个简单的排序,即:道>德>仁>义>利。当然做到这一点就是“圣人”,而非普通人了。在众多的弟子中,孔子对颜回是最为欣赏的,然而颜回不如子贡能挣钱,也不如宰予能言善辩,更不如仲由勇而有力,可以说是“百无一用是书生”的典型。孔子欣赏颜回的原因是:
贤哉,回也!一箪食,一瓢饮,在陋巷,人不堪其忧,回也不改其乐。贤哉,回也!
而孔子有类似的追求:
饭疏食饮水,曲肱而枕之,乐亦在其中矣。不义而富且贵,于我如浮云。
后世将孔子和颜回的“乐”,称为“孔颜之乐”。后世,尤其是北宋时期对“孔彦之乐”的极为重视,可以看作是“圣人”的奖励函数算法。当然,要领会到这两位圣人的算法是有难度的,但是一个基本原则就是“道>德>仁>义>利”。
中国传统文化|基于AlphaGo的强化学习基础模型,对王阳明心学的现代分析
文章插图

三、奖励函数与人生观
依据奖励函数决策还需要解决另一个基本的哲学问题:我要到哪里去?这就是亚里士多德“四因说”种的“目的因”。打个比方,从成都出发,去北京应该往北走,去南京则应该往东走,去昆明则应该往南走,去拉萨则应该往西走。不同目标意味着不同的判断标准。“我要到哪里去?”这个问题的答案,本质上就是人生观。
正因为如此,包括心学在内的儒家强调“立志”,没有志向就没有了方向。儒家对人生观的看法是比较普适的,儒家并非提倡一个单一的人生观,而是比较全面的一个体系,“安生立命”是其主题,“先义后利”是其原则。
道家其实与儒家具有相同的人生观体系。在儒家提出“利、义、仁、德、道”的世界观中,显然“道”才是最高追求,但是儒家却更强调“仁、义”。其原因就在于,“仁义”可以作为社会追求的目标,而“道和德”通常只有少数人能做到。道家的追求与儒家是相反的,《老子》有言:
故失道而后德,失德而后仁,失仁而后义,失义而后礼。
但是,两千多年的实践表明,儒家始终处于主流地位。究其原因在于纯粹的精神追求尽管显得很高雅,但是却并非是人类的主流目标。在生存与繁衍的终极目标下,衣食住行是每一个人的必需。因而,对“利”的追求才是人类社会的基本底色。道家把“道”放在第一位,最后得到的大概率是颜回的自得其乐的状态。可见,从社会实践的意义上讲,儒家价值是大于道家的(可参考本账号下有关孔子与老子比较的文章)。
因此,现实中的人们在“利、义、仁、德、道”之中选择哪一项作为优先项,就决定了他或她的性格和行为方式。选“道”的人,因达不到圣人“中行”的标准,大多为“狷”者,狷者有所不为也。选“德”的人大多为“狂”者,狂者进取,欲明明德于天下。选“仁”的人充满同情和爱,仁者爱人。选“义”者,更看重自身名誉。而以“利”为乐,在孔子看来就是“小人”了:小人利其利。