让 AI “读懂”人类价值观！朱松纯团队工作登上 Science 头条( 四 ) 今日（7月14日）

文章图片

文章图片
图2：侦察探索游戏的用户界面。从左到右，图例面板显示游戏地图中的图例。价值函数面板显示这局游戏的价值函数，侦察机器人不知道这个函数，用户也不能修改。中心地图显示当前地图上的信息。分数面板显示了用户的当前分数。总分的计算方法是将各个目标的分数用价值函数加权后的总和。状态面板显示系统的当前状态。提议面板显示侦察机器人当前的任务计划提议，用户可以接受/拒绝每个建议。解释面板显示侦察机器人提供的解释。
我们为侦察机器人制定了在寻找到路径时额外的一系列目标，包括1）尽快到达目的地， 2）调查地图上的可疑装置， 3）探索更大的区域，以及4）收集资源。游戏的表现是由侦察机器人完成这些目标的情况和它们的相对重要性（权重）来衡量的，其中的权重就是人类用户的价值函数。例如，如果人类指挥官更注重时效而不是获取更多的资源，那么侦察机器人则应该忽略沿途上的部分资源以保证尽快到达目的地。（注，这个价值函数只在游戏开始时向人类用户透露，而不对侦察机器人透露。图3总结了人机互动的流程。）
在不清楚人类指挥官价值取向的情况下，机器人侦察兵小队必须快速推断出人类的价值判断，在每一步行动中，机器人侦察小队每一个成员都要给出下一步行动方案，由人类指挥官选择。为了帮助指挥官进行决策，侦察机器人小队将解释行动方案的依据。结合指挥官的反馈，以往的互动历史和当前的地图情况，侦察机器人小队将调整其对指挥官当前价值观的判断，并采取相应的行动。

文章图片
图3：侦查探索游戏的设计。时间线（A）表示在一轮游戏中发生的事件，从机器人收到环境信号开始，到它们的下一步动作结束。时间线（B）和（C）分别描述了机器人和用户的心智变化过程。
4即时双向价值对齐模型为了估计人类指挥官在通信过程中的价值函数，我们将两个层次的心智理论整合到我们的计算模型中。第1层心智理论考虑合作性假设。也就是说，给定一个合作的人类指挥官，被他接受的来自机器人的提议，更有可能与正确的价值函数相一致。第2层心智理论进一步将用户的教育方法纳入模型，使机器人更接近人类指挥官真实价值的反馈比其他反馈更容易被人类指挥官选择。建模人类指挥官的教育倾向（pedagogicalinclination）需要更高一层的心智理论。结合这两个层次的心智理论，我们将人类指挥官的决策函数写成一个由价值函数参数化的分布，并开发出一种新的学习算法。
值得注意的是，与我们的人机合作框架有可比性但不同的方法是逆强化学习。逆强化学习的目的是在一个被动的学习环境中，根据预先录制的、来自专家的演示（demonstration）来恢复底层的奖励函数（rewardfunction）。与之不同的是，在我们的环境中，侦察机器人被设计为从人类指挥官给出的稀缺监督中进行交互学习。更重要的是，我们的设计要求机器人在任务进行的过程中即时地、主动地推断人类指挥官的价值。此外，为了完成合作，侦察机器人不仅必须迅速理解人类指挥官的意图，还要阐明自己的决策依据，以确保在整个游戏过程中与人类指挥官顺利沟通。总体来看，机器人的任务是通过推断人类用户的心智模型，积极提出建议，并评估人类用户的反馈来进行价值调整。这些都需要机器对人类用户进行复杂的心智建模，并具有即时更新模型的能力。