让 AI “读懂”人类价值观！朱松纯团队工作登上 Science 头条( 五 ) 今日（7月14日）

文章图片

文章图片
5总结本文提出的XAI系统成功地证明了双向人机价值对齐框架的可行性。从倾听者的角度来看，所有三个解释组中的机器人都可以在游戏进度达到25%时，通过对至少60%的目标重要性进行正确排序，快速与用户的价值进行对齐。从表达者的角度来看，通过提供适当的解释，机器人可以向用户说明其意图，并帮助人类更好的感知机器人的价值，当给机器提供”完整解释“时，只需在游戏进度达到50%时即可实现人类用户价值与机器人价值的统一，而当只提供”简要解释“时，游戏进度需要达到75%时才能完成价值的统一。
我们从上述两个角度得到了令人信服的证据，实现了双向价值对齐的过程，具体来说：
通过接收人类的反馈，机器人逐渐更新其价值函数来与人类的价值保持一致；
通过不断地与机器人交互，人类用户逐渐形成对系统能力和意图的感知。虽然机器人系统的价值在游戏的上半场没有与人类用户实现统一，但用户对机器人价值评估能力的感知仍然可以提高。
最终，当机器人的价值变得稳定时，用户对机器人的评估也变得稳定。从机器人对用户价值的评估到用户价值的真实值，以及从用户对机器人价值的评估到机器人当前价值的收敛配对，形成了由用户真实价值锚定的双向价值对齐。
总的来说，我们提出了一个双向人机价值对齐框架，并使用XAI系统验证其可行性。我们提出的XAI系统表明，当把心智理论集成到机器的学习模块中，并向用户提供适当的解释时，人类和机器人能够通过即时交互的方式实现心智模型的对齐。我们提出的计算框架通过促进人和机器之间共享心智模型的形成，为解决本文的核心问题"理想的人机协作应该是什么样的？"提供了全新的解答。
在这个游戏任务中，我们的工作侧重于以价值和意图为核心对心智进行建模，对齐这些价值可以极大地帮助人类和机器为面向任务的协作建立共同基础，使其可以胜任更加复杂的场景何任务。因此，我们的工作是在人机协作中朝着更通用的心智模型对齐迈出的第一步。在未来的工作中，我们计划探索哪些因素能够进一步增强人类用户信任（例如，允许对机器人进行反事实查询），验证"对齐"对任务性能的影响，并将我们的系统应用于涉及更复杂环境和价值函数的任务。
6未来畅想：打造“AI大白”在科幻电影《超能陆战队》中，有一个“大白”智能陪伴机器人， “大白”可以陪电影男主角一起学习、玩耍、做游戏，具有很高的实时互动性。而当电影男主角情绪失落时， “大白”还能“读懂”他的情感价值需求，主动安慰，给一个大大的拥抱。

文章图片
“大白”其实是一个很智能的通用智能体。朱松纯团队所在的北京通用人工智能研究院，联合北京大学人工智能研究院等单位，致力追寻人工智能的统一理论与认知架构，实现具有自主的感知、认知、决策、学习、执行和社会协作能力，符合人类情感、伦理与道德观念的通用智能体。本研究从传统AI的“数据驱动”转变为“价值驱动” ，让XAI系统理解了人类价值观，朝着通用人工智能迈出了一大步。
雷峰网
文章图片