Facebook开源Ego 4D数据集，3000小时第一人视角视频，向AR元宇宙跃进智东西编译|程茜编辑|李水青智

文章图片
智东西编译|程茜编辑|李水青
智东西10月15日消息， Facebook在AR领域投入了大量时间和金钱，包括与雷朋（Ray-Ban）合作，打造自己的AR眼镜。目前，这些小工具只能记录和共享图像，未来Facebook又将会赋予它们什么功能？
Ego4D是Facebook在AI领域的一个长期项目，旨在增强AI从第一人称视角理解世界并与人类互动的能力，解决研究AI对以自我为中心的感知时面临的挑战。
昨天， Facebook宣布开源Ego4D（Egocentric4DPerception）计划数据集，该计划是对第一人称或“以自我为中心”的视频进行分析，由两个主要部分组成：一个开放的以自我为中心的视频数据集和一系列Facebook将在未来赋予AI系统的基准。
据称，该数据集的开源大大增加了在研究界公开可用的第一人称视频的数据量，镜头时长比任何其他数据集都高出至少20倍。
一、面向AR ，让AI从第一人称视角理解世界

文章图片
此前， AI通常从第三人称拍摄的照片和视频中进行学习，但下一代AI将需要从第一视角来展示世界的视频中学习。
以此来看，能够理解世界的AI系统将会开启沉浸式体验的新时代，因为在未来AR眼镜和VR头显等设备将会和智能手机一样日常。
Ego4D计划试想让AI系统能够使用第一人称视角不断分析人们的生活，通过记录人们的所见所闻所做，以帮助他们完成日常任务。
但目前，任何AI系统都无法可靠地完成此类任务， Facebook强调这是一个研究项目，而不是商业开发项目。然而，可以很明显地看出， Facebook将这些功能视为AR计算的未来。 “当然，考虑到增强现实以及我们希望能够用它做什么，未来我们可能会对这项研究加以利用。 ”FacebookAI研究科学家克里斯汀·格劳曼（KristenGrauman）在接受外媒TheVerge采访时表示。
但Facebook的野心对用户的隐私数据具有巨大影响。隐私专家已经对Facebook的AR眼镜表示担心，该设备如何让佩戴者隐蔽地记录其他公众成员，而不会窃取他人的数据。如果未来版本的硬件将佩戴者变成行走的监视机器，用户不仅可以记录镜头，而且会分析和转录，只会加剧这种担忧。
二、数据集：855人3205小时视频，跨越欧洲中亚

文章图片
Ego4D计划包含两个任务，分别是推进开放的以自我为中心的视频数据集和推进AI系统完成一系列基准或任务。
Facebook与全球9个国家13所大学和实验室合作收集数据。最新数据显示总共有大约3,205小时的镜头，由居住在9个不同国家的855名参与者录制。参与者佩戴GoPro相机和AR眼镜来录制无脚本活动的视频，视频内容包括建筑工作、烘焙、与宠物玩耍和与朋友交往等行为。
13所大学负责数据收集，并对部分图像内容进行处理，会对所有镜头进行去标识化处理，其中包括模糊旁观者的面部并删除所有的个人身份信息。
格劳曼表示，该数据集“在规模和多样性方面都是同类中的首创” 。她说，同类中位于第二的数据集仅包含100小时，且完全位于厨房拍摄的第一人称镜头。 “我们让这些AI系统的视野不仅仅面向英国和西西里岛的厨房，还有来自沙特阿拉伯、东京、洛杉矶和哥伦比亚的镜头。 ”
三、五大基准挑战：情景记忆、社交互动

文章图片
Ego4D的第二个组成部分是一系列基准或任务， Facebook希望世界各地的研究人员使用在其数据集上训练的AI系统，去尝试解决这些问题。 Facebook为开发更智能、更有用的AI助手制定了以下五个基准挑战，