视角|教人工智能以“我”的视角看世界( 二 )

“脸谱日前发布的这个项目，其实本身就是建立一个数据集，旨在训练人工智能模型更像人类。其开发了5个围绕第一人称视觉体验的基准挑战，即把第一人称视角拆解成5个目标，开展相应的训练集竞赛。 ”谭茗洲指出。
Ego4D的5个基准是：情景记忆，什么时候发生？预测，我接下来可能会做什么？手—物交互，我在做什么？视听日记，谁在什么时候说了什么？社交互动，谁在和谁互动？
谭茗洲强调，上述基准测试将促进开发人工智能助手所必需的构建模块的研究。人工智能助手不仅可以理解现实世界中的指令并与之交互，同时可以在元宇宙中实现对元宇宙中指令的理解和交互。
为了建立这个数据集，与脸谱合作的大学团队向研究参与者分发了现成的头戴式摄像头和其他可穿戴传感器，以便捕获第一人称的、未经编辑的日常生活视频。项目的重点是参与者从日常场景中捕获视频，比如购物、烹饪、边玩游戏边聊天，以及与家人和朋友进行其他团体活动等。
视频采集了摄像头佩戴者在特定环境中选择注视的对象，以及摄像头佩戴者如何从自我中心角度与人和物互动。到目前为止，摄像头佩戴者已经执行了数百项活动，并与数百种不同的对象进行交互，项目的所有数据都是公开的。
“脸谱这项研究能够更快地推动人工智能领域自我中心认知研究的进步。这将对我们未来的生活、工作和娱乐方式产生积极影响。 ”谭茗洲表示。
让人工智能认知能力更像人
【视角|教人工智能以“我”的视角看世界】人工智能发展的终极目标是让人类受益，让我们能够应对现实世界中日益复杂的挑战。想象一下，通过AR设备能够在琴、棋、书、画课堂中准确显示如何弹琴、下棋、握笔和勾勒；形象生动地指导家庭主妇根据食谱烘焙烧烤、烹饪菜肴；健忘的老人借以眼前全息图的帮助回忆过去……
脸谱强调，希望通过Ego4D项目为学术界和行业专家开辟一条全新的道路，帮助构建更智能、更灵活和更具交互性的计算机视觉系统。随着人工智能越加深入理解人类的日常生活方式，相信将这个项目能以前所未有的方式对人工智能的体验进行情境化和个性化。然而，目前的研究还只是触及自我中心认知的皮毛。
如何才能让人工智能的认知能力更像人类？“首先是注意力，人工智能的注意力机制更接近直觉，而人类的注意力是有选择性的。目前来说，大部分人工智能注意力机制，是在训练过程中重复告诉人工智能应该注意哪些地方，哪些东西是有关联的。未来也许可以让参与试验的人戴上特殊的可以捕捉眼球关注点的装置，来进一步收集相关数据。 ”谭茗洲指出。
“第二，还需要以事件和行为的关联为研究中心，定义人工智能的行为。一件事情的发生包括多个行为，要用人类反馈的方式训练人工智能系统，使人工智能的行为与我们的意图一致。 ”谭茗洲进一步表示。
谭茗洲强调：“此外，听觉和视觉、语言和行为等之间还需要配合、响应、联动，这就要构建多模态交互模型，纵深研究视角为何会聚焦投向并与意图识别相结合，形成与行为之间联动的机制等。 ”采访人员华凌