让 AI “读懂”人类价值观！朱松纯团队工作登上 Science 头条( 三 ) 今日（7月14日）

文章图片
图1.人机价值对齐过程总览。图1介绍了游戏中的双向价值调整过程。在游戏互动过程中，存在着三个价值目标，分别是：用户的真实价值；：机器人对用户价值的估计（在游戏中，侦察机器人没有自己的价值，所以他们以人类用户价值的估计为依据采取行动）；：用户对机器人价值的估计。基于这三个价值目标产生了两种价值对齐——：机器人从用户给出的反馈中学习用户的价值；:用户从机器人给出的解释和互动中了解机器人的价值。最终，三种价值目标将汇聚于，人-机团队将形成相互信任和高效的协作。
本文提出的XAI系统旨在共同解决以下两个问题：
在即时互动和反馈过程中，机器如何准确估计人类用户的意图？
机器如何解释自己，以便人类用户能够理解机器的行为，并提供有用的反馈来帮助机器做出价值调整？
在本文提出的系统中，机器人提出任务计划的建议，并要求人类用户给出反馈（接受或拒绝建议），从人类反馈中推断出任务目标背后人类真实的价值意图。在协作游戏中，如果用户知道机器人正在积极学习他的价值目标，那么用户就会倾向于提供更加有用的反馈，以促进价值保持对齐。特别地，每条信息都传达了两方面的意义，包括（1）基于价值目标的语义信息和（2）基于不同解释方式之间区别的语用信息。利用这两方面的含义， XAI系统以一种多轮的、即时的方式展示了价值的一致性，在一个问题搜索空间大的团队合作任务中实现了高效的人机互动交流。为了使机器人的价值目标与用户保持一致， XAI系统生成解释、揭示机器人对人类价值的当前估计、并证明提出规划的合理性。在每一步的互动中，为了避免解释内容过于冗长，机器人会提供定制化的解释，比如省略重复的已知信息并强调重要的更新。在收到机器人的解释并向它们发送反馈后，用户向机器人提供提示，说明他们对最新建议和解释的满意程度。利用这些反馈，机器人会不断地更新解释的形式和内容。
为了评估本文XAI系统的性能，我们邀请了人类用户进行了一系列实验，以此考察人类-机器双向价值协调是否成功。我们采用了三种类型的解释，并将用户随机分配到三组中的一组。实验结果表明，我们所提出的XAI系统能够以有效地实现即时双向的价值对齐，并用于协作任务；机器人能够推断出人类用户的价值，并调整其价值估计被用户所理解。此外，有必要进行多样化的解释，以提高机器的决策性能和它们的社会智能。合作式的人工智能的目标是减少人类的认知负担，并协助完成任务，我们相信，主动即时推断人类的价值目标，并促进人类对系统的理解，将会为通用智能体的人机合作铺平道路。
3游戏设置如图2所示，在我们设计的合作游戏中，包含一个人类指挥官和三个侦察机器人。游戏的目标是需要在一张未知的地图上找到一条从基地（位于地图的右下角）到目的地（位于地图的左上角）的安全路径。该地图被表示为一个部分可见的20×20网格图，每个格子都可能有一个不同的装置，只有在侦察机器人靠近它之后才可见。
在游戏中，人类指挥官和侦察机器人具有结构性的相互依赖关系，一方面人类指挥官需要依靠侦察机器人探索危险区域并排除爆炸物，另一方面，侦察机器人需要依赖人类指挥官提供的反馈更好地理解当前任务的目标。