视角|教人工智能以“我”的视角看世界

要令人工智能系统如同人类一样与世界交互 , 人工智能领域需要发展出一种全新的第一人称感知范式 。 这意味着人工智能在实时运动、交互时 , 要以第一人称视角理解日常活动 。
世界是多维的 , 生活中同样的景物在不同的视角下会呈现出不同的形态 。 若要让人工智能更像人类 , 就要让其视角更接近人 。 从人类的角度观察环境 , 人工智能或许会看到一个新的天地 。
近日 , 由脸谱(Facebook)和9个国家的13所大学及实验室组成的学术联盟宣布 , 11月将开源让人工智能拥有以第一人称视角与世界进行交互能力的Ego4D(Egocentric 4D Perception)项目 。 这个项目包含超过3025小时的第一人称视频 , 涉及来自73个城市的700多名参与者的日常生活 。 这些视频将有助于使人工智能认知世界的方式更加趋向于人类 。
那么 , 目前人工智能主要通过哪种视角认知世界 , 不同视角对于人工智能认知环境会产生哪些影响?人工智能感知环境、认识世界主要通过哪些技术?想要认知世界的方式更像人类 , 人工智能还需突破哪些瓶颈?
人工智能通常采用第三人称视角
“要令人工智能系统如同人类一样与世界交互 , 人工智能领域需要发展出一种全新的第一人称感知范式 。 这意味着人工智能在实时运动、交互时 , 要以第一人称视角理解日常活动 。 ”脸谱首席研究科学家克里斯汀·格劳曼曾言 。
今天的计算机视觉系统大多是利用数百万张以第三人称视角拍摄的照片和视频进行学习的 。 “为了构建新的感知范式 , 我们需要教会人工智能像人类一样 , 从第一人称角度即‘我’的视角 , 沉浸式观察理解世界 , 并与之交互 , 这种认知方式也可以称为自我中心认知 。 ”10月26日 , 远望智库人工智能事业部部长、图灵机器人首席战略官谭茗洲在接受科技日报采访人员采访时指出 。
如何理解人工智能的第一人称和第三人称视角?谭茗洲解释道:“第一人称视角代入感很强 , 比如在玩游戏时 , 你如身临其境 , 看到的游戏画面就是你真实世界看到的画面 。 第三人称视角又叫作上帝视角 , 仿佛你一直飘在角色身边一样 , 如影随形 , 可以看到角色本身及周围的情况 。 例如 , 第三人称视角下藏在掩体后可以看到掩体前面的情况;而在第一人称视角下 , 囿于视角范围 , 在掩体后则只能看到掩体本身 。 ”
“再如自动驾驶 , 其视觉系统如果只从旁观者的(如车的角度)收集数据 , 即便通过数十万个基于旁观视角看到的车辆行进图像或视频进行训练 , 人工智能可能依然不知道如何去做 , 很难达到现在的自动驾驶水平 。 因为这种旁观者的视角与坐在车内方向盘前的视角很不一样 , 第一人称视角下 , 真人驾驶员做出的反应还包括点刹、猛刹等行为 , 这些数据是从旁观者视角无法搜集的 。 ”谭茗洲进一步说 。
“以前人工智能界很少以第一人称视角收集数据集 , 这个项目弥补了人工智能视角体系的短板 。 未来AR、VR的发展十分重要 , 如果人工智能可以从‘我’出发 , 以第一人称视角来观察理解世界 , 将开启人类和人工智能沉浸式体验的新时代 。 ”谭茗洲指出 。
克里斯汀·格劳曼也表示:“下一代人工智能系统需要从一种完全不同的数据中学习 , 即从事件中心视觉而不是边线视觉展示世界的视频中学习 。 ”
建立真实世界数据集
目前让人工智能感知环境、认识世界 , 建立类人化的认知体系主要通过什么“抓手”展开?
业内专家指出 , 历史证明 , 基准和数据集是人工智能行业创新的关键催化剂 。 今天 , 几乎可以识别图像中任何对象的计算机视觉系统都是建立在数据集和基准之上的 , 数据集和基准为研究人员提供了一个研究真实世界图像的实验台 。