AI即将拥有自我意识？Facebook推“Ego4D”开启元宇宙大门( 二 ) 新智元报道来源：FacebookAI编辑

于是， FacebookAI在「Ego4D」中开放了五个以第一人称视觉体验为中心的基准挑战。
哎，你看到我的手机了吗？我又找不着我的手机了！
很熟悉，对吧？
Ego4D希望解决的第一个问题是情景记忆（Episodicmemory）。

文章图片
以第一人称视觉为中心的视频记录了相机佩戴者的日常生活，如果用这些视频去训练AI ， AI就能学会通过检索过去以第一人称视觉为中心的视频中的关键时刻来扩展你的个人记忆。
你可能会问人工智能各种自由形式的问题，比如：视觉查询「我把我孩子最喜欢的泰迪熊放在哪里了？」、文本查询「我加了多少杯糖」，以及事件查询「我什么时候和狗玩的」。
为此，模型必须能响应你的提问，并在过去的视频帧中定位，进一步提供记忆中的三维空间方向，时间，事件细节等信息。
坏了，接下来我要做什么来着？
Ego4D要解决的第二个问题便是预测（Forecasting）：下一步我要做什么？

文章图片
人工智能可以理解佩戴者的行为会如何影响这个人未来的状态，比如这个人可能会移动到哪里，他们可能会触摸什么物体，或者他们接下来可能会从事什么活动。
预测行动不仅需要认识到已经发生的事情，还需要展望未来，预测下一步行动。这样AI系统就可以在当下提供有用的指导。
比方说，就在你准备端着锅里的汤就走的时候，你的人工智能助手会赶紧通知你，「等等，你没加盐咋吃啊？」
我在做什么，该怎么做？
手-物之间的互动（Handandobjectmanipulation）也是难点之一，因为AI需要理解我在做什么，该怎么做？

文章图片
学习手如何与物体互动对于AI指导我们的日常生活至关重要。 AI必须检测第一人称的人-物交互，识别抓取，并检测物体状态变化。这时， AI机器人可以总结视频中观察到的人类经验，获得自己的经验。
因此，当你在烹饪一份食谱时，人工智能助手可以指导你需要哪些配料，需要先做什么，了解你已经做了什么，指导你度过每一个「大脑宕机」的时刻。
刚刚他说了什么，他什么时候说的？
人类可以用声音来理解世界，未来的人工智能也要学会这种视听记录（Audio-visualdiarization）。

文章图片
如果你正在上一堂重要的课，但因为爸妈给你发短信而分了心，你可以问AI：「教授把我们的试卷收上去之后，说明天要讲什么」？
我正在与谁互动，如何互动？
社会互动（Socialinteraction）是Ego4D所盼望的最后一个方向。

文章图片
除了识别视觉和声音提示，理解社交互动是智能人工智能助手的核心。一个社交智能人工智能会理解谁在和谁说话，谁在关注谁。
所以，下次你参加晚宴时，即使再嘈杂， AI助手可以帮助你专注于桌子对面和你说话的人在说什么。
以上这些基准挑战都是以第一人称视觉为中心的人工智能的基本构建模块，这将让AI不仅可以在现实世界中理解和互动，还可以在元宇宙中进行理解和互动，构成更有用的人工智能助手和其他未来创新的基础。
一个又大又干净的数据集
基准和数据集在历史上被证明是人工智能行业创新的关键催化剂。毕竟，今天的CV系统可以识别图像中的几乎任何物体，是建立在数据集和基准之上的，例如MNIST、COCO和ImageNet ，它们为研究人员提供了研究真实世界图像的测试平台。