meta|Meta:训练AR眼镜的智能助手,需要用第一人称视频( 二 )





Ego4D数据收集参与者的职业
牛津大学教授Andrew Zisserman表示:在未来几年 , Ego4D数据集有望成为计算机视觉发展的驱动力 , 它会帮助计算机视觉算法以第一人称理解事件和活动 , 分析时间背景等 。
为AR眼镜公开采集数据
值得注意的是 , 利用图像、语音数据来分析用户周边环境 , 可能会带来严重的隐私争议 , 尤其是Meta推出的Stories拍照眼镜 , 很可能会被看作是移动的监控 。



Ego4D视频数据包含的活动内容
Meta明确指出 , 这些数据是由合作学校的855人录制的 , 他们并非Meta员工 , 使用的设备则是GoPro和拍照眼镜 。
而为了获得大家的信任 , Meta多次公开视频数据采集的详细信息和进度 , 在Meta公布的网站中 , 你可以直接查看Ego4D包含的视频数据 , 这些信息都是公开的 。



Meta还透露:Ego4D录制的视频来自于未经编排的日常活动 , 包括施工、购物、玩游戏、烘焙、撸猫/狗、社交等等 。 通过面部打码等方法 , 去除可识别的身份等信息后 , 大学才将这些视频数据提供给Meta 。 视频内容涉及环境、人手动作 , 以及和一百种不同的物品交互 。 除此之外 , FRL科研人员也利用Vuzix Blade AR眼镜 , 在预先设定的实验室场景中 , 收集了额外400小时的第一人称视频数据 。
科技创新依赖新工具
Meta表示:旧的工具无法开发未来的科技创新 。 因此 , AR眼镜的智能AI系统也需要全新的训练数据 。 据Meta设想 , Ego4D训练的AI算法将具备以下功能:

  • 1)情景记忆:时间和事件;
  • 2)预测:接下来的行为;
  • 3)识别手势和物体交互:正在做什么;
  • 4)音频和视觉分析:谁说了什么、什么时间、中心思想是什么;
  • 5)社交互动:谁和谁在互动 , 人群中谁在和我说话 。
(作为AI训练的基准 , 这些功能或应用场景也是Ego4D的一部分 , Meta希望通过开源数据集和训练基准 , 将技术研发开放给世界各地的科研人员 , 鼓励更多人用Ego4D数据来训练AI系统)
Meta科研人员指出 , Ego4D将具备情景记忆 , 以及视觉和听觉记录功能 。 其中 , 情景记忆指的是可以记住发生在特定时间和地点的事件 , 能够回答“钥匙放在哪了”等问题 。 此外 , AR眼镜将教你学习打鼓、做菜、找钥匙 , 或是用全息图像来显示过去的记忆 。 比如指导IKEA家具安装 , 或是提示做饭步骤 , 如果已经放盐 , 系统会提醒你避免重复加盐 。



而为了实现上述场景 , Meta需要训练足够智能的AI系统 , 像人一样以第一人称理解世界 , 与世界互动 , 这种形式也被科研领域称为自我为中心的感知 。



目前 , Ego4D AI系统还不能达到理想的效果 , 因此它只是一个科研项目 , 并不是正在开发中的产品 。 不过 , 很可能会在未来的AR眼镜中应用这样的技术 。 Meta AI科研人员Kristen Grauman表示:Ego4D等AI算法有望通过AR眼镜 , 解锁更多潜在场景 , 甚至将AR与VR融合 。



当被问及隐私安全问题时 , Meta表示:Ego4D预计将进一步引入隐私保护措施 , 例如:AR眼镜在增强音频之前 , 可以先征求用户许可 , 或者限制音频采集的范围 , 仅识别用户与其他人的对话 , 或用户附近的声音 。 参考:FB