“为机器立心”：朱松纯团队搭建人与机器人的价值双向对齐系统，解决人机协作领域的重大挑战 “我们的研究成果标志着人工

“我们的研究成果标志着人工智能（AI ， ArtificialIntelligence）系统具备了在交流中学习人类价值函数并实时对齐当前人类价值目标的能力，是为机器立心，实现‘小数据，大任务’范式的重要一步。也是在迈向真正自主智能和通用人工智能的道路上更进一步。 ”北京通用人工智能研究院的郑子隆研究员说。
近日，北京通用人工智能研究院、北京大学人工智能研究院朱松纯教授领衔团队，通过一个“人机协作探索”游戏，构建了一种人机协同双向价值对齐的计算框架，证明了在该框架下智能系统与人类能够做到相互信任，并像人与人一样共同合作实现目标。
该项成果展示了一种全新的人机协作模式，将有助于设计更好的人工智能系统，并在未来应用于人机团队合作场景。

文章图片
（来源：资料图）
【“为机器立心”：朱松纯团队搭建人与机器人的价值双向对齐系统，解决人机协作领域的重大挑战】如今， AI逐渐开始渗透人们的生活。你可能已经注意到了，在日常生活中，你的智能语音助手常常会出错，即使是在你纠正它之后，同样的错误也仍然会发生。还有智能扫地机器人，只能遵循预先设定的逻辑来行动，而不会在听到你的指令后马上改变路径。
当下的AI智能体并不能和人类的价值进行实时对齐，这对于AI助手进入千家万户是一个巨大障碍。
而朱松纯团队的这项研究工作展示了解决这些问题的潜力，朝着实现通用人工智能迈进了一步，在未来或许能帮助数百万人更好地与AI进行合作。
该研究论文以《人机实时双向价值对齐》（Insitubidirectionalhuman-robotvaluealignment）为题，于7月14日发表在了ScienceRobotics期刊上[1] 。该项研究工作的共同一作是袁路遥（UCLA）、高晓丰（UCLA）、郑子隆（北京通用人工智能研究院），通讯作者是袁路遥（UCLA）、MarkEdmonds（UCLA）、吕宏静（UCLA）、朱毅鑫（北京大学人工智能研究院）、朱松纯（北京通用人工智能研究院、北京大学人工智能研究院）。

文章图片
（来源：ScienceRobotics）
作为论文共同一作，袁路遥博士表示，在过去的10年里，以深度学习为代表的人工智能技术取得了极大进步。然而这种基于大数据训练的模式是一种被动的智能，只能按照人类事先编好的代码，机械完成特定任务，缺乏与人类相同的价值观，更遑论与人相似的推理认知能力。
在这个背景下，研究如何让AI系统真正理解人类的价值需求与意图，并获得人类的信任，是一个巨大的挑战。近几年的研究进展表明：人机协作是否成功不仅依赖于团队成员对现状和目标的一致认知，还有赖于团队是否持有相同的价值取向。而只有通过人类与机器的双向沟通，才能在团队中高效建立价值共识，从而使得团队成员采取受信任的行为决策来实现最终目标。
在这项研究中，朱松纯教授团队设计了一个巧妙的“人机协作探索”游戏，来探索机器人与人类价值对齐的过程以及双向沟通在这个过程中的所用。
这个游戏的内容是：在人类的指挥下， 3个机器人与人类协同合作，在特定的棋盘上找到从起点到终点的最优路径。游戏在一个格子棋盘上进行，如下图所示。棋盘右下角和左上角分别为机器人的起点和终点，黑色部分为障碍物，且棋盘上放有金砖（物资）与炸弹。