让 AI “读懂”人类价值观!朱松纯团队工作登上 Science 头条( 四 )
文章图片
文章图片
图2:侦察探索游戏的用户界面 。 从左到右 , 图例面板显示游戏地图中的图例 。 价值函数面板显示这局游戏的价值函数 , 侦察机器人不知道这个函数 , 用户也不能修改 。 中心地图显示当前地图上的信息 。 分数面板显示了用户的当前分数 。 总分的计算方法是将各个目标的分数用价值函数加权后的总和 。 状态面板显示系统的当前状态 。 提议面板显示侦察机器人当前的任务计划提议 , 用户可以接受/拒绝每个建议 。 解释面板显示侦察机器人提供的解释 。
我们为侦察机器人制定了在寻找到路径时额外的一系列目标 , 包括1)尽快到达目的地 , 2)调查地图上的可疑装置 , 3)探索更大的区域 , 以及4)收集资源 。 游戏的表现是由侦察机器人完成这些目标的情况和它们的相对重要性(权重)来衡量的 , 其中的权重就是人类用户的价值函数 。 例如 , 如果人类指挥官更注重时效而不是获取更多的资源 , 那么侦察机器人则应该忽略沿途上的部分资源以保证尽快到达目的地 。 (注 , 这个价值函数只在游戏开始时向人类用户透露 , 而不对侦察机器人透露 。 图3总结了人机互动的流程 。 )
在不清楚人类指挥官价值取向的情况下 , 机器人侦察兵小队必须快速推断出人类的价值判断 , 在每一步行动中 , 机器人侦察小队每一个成员都要给出下一步行动方案 , 由人类指挥官选择 。 为了帮助指挥官进行决策 , 侦察机器人小队将解释行动方案的依据 。 结合指挥官的反馈 , 以往的互动历史和当前的地图情况 , 侦察机器人小队将调整其对指挥官当前价值观的判断 , 并采取相应的行动 。
文章图片
图3:侦查探索游戏的设计 。 时间线(A)表示在一轮游戏中发生的事件 , 从机器人收到环境信号开始 , 到它们的下一步动作结束 。 时间线(B)和(C)分别描述了机器人和用户的心智变化过程 。
4即时双向价值对齐模型为了估计人类指挥官在通信过程中的价值函数 , 我们将两个层次的心智理论整合到我们的计算模型中 。 第1层心智理论考虑合作性假设 。 也就是说 , 给定一个合作的人类指挥官 , 被他接受的来自机器人的提议 , 更有可能与正确的价值函数相一致 。 第2层心智理论进一步将用户的教育方法纳入模型 , 使机器人更接近人类指挥官真实价值的反馈比其他反馈更容易被人类指挥官选择 。 建模人类指挥官的教育倾向(pedagogicalinclination)需要更高一层的心智理论 。 结合这两个层次的心智理论 , 我们将人类指挥官的决策函数写成一个由价值函数参数化的分布 , 并开发出一种新的学习算法 。
值得注意的是 , 与我们的人机合作框架有可比性但不同的方法是逆强化学习 。 逆强化学习的目的是在一个被动的学习环境中 , 根据预先录制的、来自专家的演示(demonstration)来恢复底层的奖励函数(rewardfunction) 。 与之不同的是 , 在我们的环境中 , 侦察机器人被设计为从人类指挥官给出的稀缺监督中进行交互学习 。 更重要的是 , 我们的设计要求机器人在任务进行的过程中即时地、主动地推断人类指挥官的价值 。 此外 , 为了完成合作 , 侦察机器人不仅必须迅速理解人类指挥官的意图 , 还要阐明自己的决策依据 , 以确保在整个游戏过程中与人类指挥官顺利沟通 。 总体来看 , 机器人的任务是通过推断人类用户的心智模型 , 积极提出建议 , 并评估人类用户的反馈来进行价值调整 。 这些都需要机器对人类用户进行复杂的心智建模 , 并具有即时更新模型的能力 。
- 游戏本|6000左右也能买到“体验炸裂”的游戏本,战神Z8系列在天猫狂暑季
- “新媒体IP打造操盘手”线上学习认证项目正式上线
- 高通骁龙|小米汽车路试曝光!造型酷似汉DM-i,车顶“全副武装”,2024年上线
- iphone12|iphone12一夜迎来“史低价”,64G版本价格亲民,可以“捡漏”了
- yy直播|YY直播还在“作秀”
- 小米科技|小米推出99“空调鞋”,叫板阿迪:多一个logo,你就卖上千块?
- it芯片|阿里的“财神爷”,马云背后的神秘男人,蔡崇信究竟有多重要?
- 快来新宇宙带你了解如何让品牌进入元宇宙有不少人认为|如何让品牌进入元宇宙
- 阿里巴巴|95亿美元卖给阿里,高管被“清场”,80后创始人为何没有怨言?
- 苹果接连收到“通牒”,否则别进中国市场,统一充电接口或成定局