康奈尔计算学院院长Kavita Bala:「元宇宙」算什么?上帝之眼或将通过 AI 诞生( 四 )


康奈尔计算学院院长Kavita Bala:「元宇宙」算什么?上帝之眼或将通过 AI 诞生
文章图片
图注:细粒度对象识别提供的精准信息
譬如这张图上 , 细粒度对象识别可以说出这个人提着一个x , 这个x不是指一个手提包(这个大部分人都可以说得出) , 这里x指的是一个特定品牌的手提包 , 这种精度的知识是大部分普通人都说不出的 。
本质上说 , 我们可以通过视觉识别提供专家级别的信息 , 甚至不止一个领域的专家级别信息 , 我认为这方面的研究非常激动人心 。
康奈尔计算学院院长Kavita Bala:「元宇宙」算什么?上帝之眼或将通过 AI 诞生
文章图片
这张图上是一个篝火炉 , 也许有些人还不能仅仅通过视觉就判定这个物体的用途 , 而细粒度对象识别不仅可以告诉我们这是一个篝火炉 , 而且还能提供这个艺术品的名称、何处可以购买以及设计艺术家的信息 。
康奈尔计算学院院长Kavita Bala:「元宇宙」算什么?上帝之眼或将通过 AI 诞生
文章图片
图注:宜家APP
我们在宜家的增强现实APP中推出了这个使用方法 。 我们将视觉识别和虚拟渲染在增强现实的APP中综合到了一起 , 从此我们过去关于视觉界面的设想开始逐步变成了现实 。
康奈尔计算学院院长Kavita Bala:「元宇宙」算什么?上帝之眼或将通过 AI 诞生
文章图片
图注:Meta的购物AIGrokNet的界面
上图的研究实际上是Meta的购物AI「GrokNet」的一部分 。 GrokNet的口号是让每一张图像都可以引领人们购物(shoppable) , 而我和我的研究小组的目标则是 , 让每一张图像都能被理解(understandable) 。
康奈尔计算学院院长Kavita Bala:「元宇宙」算什么?上帝之眼或将通过 AI 诞生
文章图片
我以上所说的都是一些较为基础的研究 , 而我们现在所做的是以前所未有的规模去收集视觉信息 , 包括照片、视频甚至于卫星图像 。 这些年我们的卫星数量大幅度增长 , 现在大约有1500个卫星 , 这些卫星每天上传100tb的数据 , 如果我们能做到理解卫星图像 , 那么我们就可以理解整个世界的发展方向 , 并且得知世界里在发生什么事情 , 这是一个非常激动人心的研究方向 。
康奈尔计算学院院长Kavita Bala:「元宇宙」算什么?上帝之眼或将通过 AI 诞生
文章图片
图注:我们能够做到从世界尺度去理解图片吗?
如果我们能够做到从世界层面去理解图片 , 届时我们就能回答图片上的这些问题:我们应该如何生活?我们穿什么?吃什么?我们的行为是如何随时间变化的?随着时间的推移 , 地球又是如何变化的?
于是我们开始与人类学家和社会学家共同研究这个问题 , 他们对于这些问题非常着迷 , 只是缺少一个有力的工具去进行研究 。 与我们合作的其中一位人类学家对于“世界各地的服装是如何变化的”这个问题非常感兴趣 , 而我们发现这个问题其实与许多方面都有着联系 。
康奈尔计算学院院长Kavita Bala:「元宇宙」算什么?上帝之眼或将通过 AI 诞生
文章图片
为什么地球上不同地域的人穿着不一样?我们认为有以下几个原因:
天气是一个很重要的原因 , 我们在夏天和加州的人穿着不一样 , 因为此处的天气比加州要凉快;
参加派对或者参加体育赛事 , 各类活动或场合也需要人们穿着特定的服装;
文化差异会使得世界各地衣着不同;
潮流趋势也是一个影响的因素 。
所以我们开始研究这个问题 , 并开始分析一组大约800万张来自世界各地的人们的图片 。 我们发明了一个简单的识别算法 , 用来识别人们穿了什么衣服 , 其中包括12个属性 。
而我们从这个研究里发现了什么呢?