meta|Meta：训练AR眼镜的智能助手，需要用第一人称视频( 二 ) ar眼镜|ai|算法

Ego4D数据收集参与者的职业
牛津大学教授Andrew Zisserman表示：在未来几年， Ego4D数据集有望成为计算机视觉发展的驱动力，它会帮助计算机视觉算法以第一人称理解事件和活动，分析时间背景等。
为AR眼镜公开采集数据
值得注意的是，利用图像、语音数据来分析用户周边环境，可能会带来严重的隐私争议，尤其是Meta推出的Stories拍照眼镜，很可能会被看作是移动的监控。

Ego4D视频数据包含的活动内容
Meta明确指出，这些数据是由合作学校的855人录制的，他们并非Meta员工，使用的设备则是GoPro和拍照眼镜。
而为了获得大家的信任， Meta多次公开视频数据采集的详细信息和进度，在Meta公布的网站中，你可以直接查看Ego4D包含的视频数据，这些信息都是公开的。

Meta还透露：Ego4D录制的视频来自于未经编排的日常活动，包括施工、购物、玩游戏、烘焙、撸猫/狗、社交等等。通过面部打码等方法，去除可识别的身份等信息后，大学才将这些视频数据提供给Meta 。视频内容涉及环境、人手动作，以及和一百种不同的物品交互。除此之外， FRL科研人员也利用Vuzix Blade AR眼镜，在预先设定的实验室场景中，收集了额外400小时的第一人称视频数据。
科技创新依赖新工具
Meta表示：旧的工具无法开发未来的科技创新。因此， AR眼镜的智能AI系统也需要全新的训练数据。据Meta设想， Ego4D训练的AI算法将具备以下功能：

1）情景记忆：时间和事件；
2）预测：接下来的行为；
3）识别手势和物体交互：正在做什么；
4）音频和视觉分析：谁说了什么、什么时间、中心思想是什么；
5）社交互动：谁和谁在互动，人群中谁在和我说话。

（作为AI训练的基准，这些功能或应用场景也是Ego4D的一部分， Meta希望通过开源数据集和训练基准，将技术研发开放给世界各地的科研人员，鼓励更多人用Ego4D数据来训练AI系统）
Meta科研人员指出， Ego4D将具备情景记忆，以及视觉和听觉记录功能。其中，情景记忆指的是可以记住发生在特定时间和地点的事件，能够回答“钥匙放在哪了”等问题。此外， AR眼镜将教你学习打鼓、做菜、找钥匙，或是用全息图像来显示过去的记忆。比如指导IKEA家具安装，或是提示做饭步骤，如果已经放盐，系统会提醒你避免重复加盐。

而为了实现上述场景， Meta需要训练足够智能的AI系统，像人一样以第一人称理解世界，与世界互动，这种形式也被科研领域称为自我为中心的感知。

目前， Ego4D AI系统还不能达到理想的效果，因此它只是一个科研项目，并不是正在开发中的产品。不过，很可能会在未来的AR眼镜中应用这样的技术。 Meta AI科研人员Kristen Grauman表示：Ego4D等AI算法有望通过AR眼镜，解锁更多潜在场景，甚至将AR与VR融合。

当被问及隐私安全问题时， Meta表示：Ego4D预计将进一步引入隐私保护措施，例如：AR眼镜在增强音频之前，可以先征求用户许可，或者限制音频采集的范围，仅识别用户与其他人的对话，或用户附近的声音。参考：FB