“为机器立心”:朱松纯团队搭建人与机器人的价值双向对齐系统,解决人机协作领域的重大挑战( 二 )


“为机器立心”:朱松纯团队搭建人与机器人的价值双向对齐系统,解决人机协作领域的重大挑战
文章图片
▲图|侦察员探索游戏的棋盘界面(来源:ScienceRobotics , 标注文字来自本文作者)
不过这个棋盘环境对于人类指挥员并不是一开始就尽收眼底的 , 而是由机器人不断探索并向人类揭示其真容 。
侦察机器人在寻找路径时有额外几个目标:尽快到达目的地、拆除炸弹、探索未知区域、收集物资 。 不过 , 只有人类指挥员知道这四个目标的相对优先级 , 而机器人并不知情 。 在游戏过程中 , 机器人需要根据人类的反馈对这4个目标的相对价值进行预测 , 相对价值的权重就是人类用户的价值函数 。 比如 , 比如 , 假设人类用户以收集物资(金砖)为主要目标 , 那么机器人就应该把收集金砖的价值目标权重设置的较大一些 , 而不是到达目的地的时效性 。
这个游戏比较真实地模拟了现实中的人机协作场景 , 即:AI系统在人类的监督下 , 在环境中自主探索并实现特定目标(例如机器人救援场景、家居服务机器人场景) 。
实验结果显示 , 通过向人类提供适当的解释说明其意图 , 机器人可以帮助人类感知其价值目标 。 而且机器人同时作为倾听者(从接收到的反馈中推断出用户的意图)和表达者(向用户解释其决策过程) , 能够更快地与人类实现价值对齐 。
换句话说 , 整个游戏其实揭示了:人机之间相互协作中的实时价值对齐 , 可以通过两方对于价值目标的解释和评估来实现 。
“为机器立心”:朱松纯团队搭建人与机器人的价值双向对齐系统,解决人机协作领域的重大挑战
文章图片
(来源:ScienceRobotics , 标注文字来自本文作者)
上述实验过程与结果 , 深刻揭示了人机协作之间的实时价值对齐是如何通过双向协作而实现的:
首先 , 机器人根据人类的反馈 , 对人类指挥员的价值目标做出估计 , 并对自身行为与策略进行调整 。
其次 , 机器人需要根据当前状况 , 向人类指挥员解释已经采取的和计划采取的行动 。 而在与机器人一轮轮的协作中 , 人类不断评估它们的意图和能力 , 并及时通过指令对它们的行为进行约束和调整 。 很显然这是一个双向的过程 。
最后 , 机器人的价值目标逐渐收敛 , 指挥员对机器人的反馈也渐趋平和 , 这就形成了人类真实价值与机器人价值的一致性统一 , 人类与机器人系统达成了高度的相互信任 。
“为机器立心”:朱松纯团队搭建人与机器人的价值双向对齐系统,解决人机协作领域的重大挑战
文章图片
▲图|人机双向价值对齐计算模型的示意图(来源:ScienceRobotics , 标注文字来自本文作者)
朱松纯教授团队在此项工作中创造性地提出了一个人与机器人的双向协作系统 , 并对实时价值对齐框架的可用性做了证实 。
本篇论文的多个审稿人对该研究的重大意义均给予了高度肯定 。 一位审稿人认为 , 这项研究相当重要并且有趣 , 有力地阐明了关于人类和人工智能之间利用双向通信来进行价值对齐的意义所在 。 另一位专家则评价道:这篇论文通过让人类与几个特定智能体一起参与游戏 , 成功证明了人和智能体之间的双向协作是可能的 , 将人机团队合作领域的AI研究向前推进了一大步 , 提高了最先进的技术水平 , 而且其他学者将极大地从这项研究中学习并受到启发 。
北京大学人工智能研究院的助理教授朱毅鑫 , 在回忆整个研究工作时 , 提到一些让他印象深刻的故事 。
他说 , 在团队遇到困难的时候坚持下去 , 并想办法解决问题 , 对项目进展至关重要 。 项目初期由于新冠疫情的影响 , 学校的实验平台无限期关闭了 。 好在他们及时找到了一个线上实验的替代方案 , 整个团队还为此专门花时间快速学习了一套全新的编程语言 , 以减轻线上研究需要付出的代价 , 并解决了一些技术问题 。