通用人工智能的时代已经来临( 二 ) 本文旨在向读者指出通用性A

文章图片
机器学习视角下，存在三项重要挑战：
一是，智能主体若想适应动态（非稳态）环境， “好用”的决策理论便不可或缺。对动物而言，这是通过进化实现的。但对机器而言，单独个体的一生中却无法学到。因此，尽管离不开先天预设，但其行为表现则是先天和后天的相互结合。
强化学习就是一个非常成功的决策理论（RL ，参考文献[12]）。虽在非稳态环境中难堪大用（主体的适应性需求与学习速率衰减是一对矛盾），不过至少能够用于实时学习。强化学习有一些主要概念的限制，基于行为主义的强化学习最为常见。通过对具有最高预期回报的“状态—行为”之间的响应映射（策略）进行学习，且无须对所在情境的其他因果关系进行建模，令此类主体具有奖励中心主义的世界观。这意味着，一旦效用函数发生变化，主体就必须重新习得一个新策略，既有知识也无法借助先天设计而迁移到新任务中。对于存在单一明确取胜标准的电脑游戏来说（如：赛车游戏中的圈速、象棋中的将军等），效用函数的变化不是问题。但对于生物系统而言，这却是日常的现实考量。
动物在饿与渴的时候行为完全不同，前者会寻找猎物或美味的枝叶，后者会寻觅水源。也就是说，个体行为不仅取决于外部因素，也取决于内部需求。当出现特定需求时，个体寻求“因果知识” ，这一知识会自动迁移到解决下一次其他需求。如此，便能对不断变化的需求予以及时响应。但是，个体并不总能预先知道该如何满足特定需求。要解决这一问题，可将具体信念与动机系统解耦，令主体在不同的环境中学习到行为的不同结果，建立不同的因果模型。这是那些抱持AI初衷的AGI研究者所追求之路，但在专用人工智能（Special-purposeAI ， SAI）领域中却常常无人问津。
二是测量。毋庸置疑，不测量便无从知晓是否有进步，但测量的对象也很重要。我们在每个领域下测试主体表现，如果允许对不同领域设定不同的超参数（译者注：在机器学习中，模型“自学”得到的是参数，无法“自学”必须由“上帝”赋予的是超参数。深度学习“炼丹师”的一项重要操作就是对超参数的调校），得到的将是不同主体的“专项成绩” 。虽在应用层面上十分有用，却对了解个体的一般性顿口无言。另一方面，如果因领域各异而设定不同超参数不被允许，那么得到的则是主体“各科考试”的“总成绩” 。
目前，最好的通用系统仍无法与专用系统（其超参数针可对特定目标领域进行调整）相媲美，但最好的专用系统其通用性得分却不会很高。类似情形在自然界比比皆是（如图1所示），尽管在特定静态环境，特定的专用方案往往是首选，但通用性却能使适应特殊环境条件变得更为容易。

文章图片
图1：高专用性的昆虫与高通用性的昆虫
从上述讨论中可以窥见：
衡量AGI成功与否需要改变已有的评估方式。 AGI亦非AI超集，特定领域内大发神威的专用化最优方案，很可能在其他领域百无一用。在通向AGI的道路上，尽管并非总是，但一般情况下确与专用能力交集寥寥。
写作此文正是想向读者指出通用性AI发展面临的许多挑战和误解。短期应用成果应与长远蓝图相得益彰。我们需要渊思寂虑，精进系统研发，从而理解主体感知，并使之实时适应不断变化的环境。