不盲追大模型与堆算力!马毅、曹颖、沈向洋提出理解 AI 的两个基本原理:简约性与自一致性( 五 )


更令人惊讶的是 , 即使在训练期间没有提供任何类信息 , 子空间或特征相关的块对角结构也开始出现在为类学习的特征中(图9)!因此 , 所学特征的结构类似于在灵长类动物大脑中观察到的类别选择区域 。
不盲追大模型与堆算力!马毅、曹颖、沈向洋提出理解 AI 的两个基本原理:简约性与自一致性
文章图片
图9:通过闭环转录 , 属于10个类别(CIFAR-10)的50,000张图像的无监督学习特征之间的相关性 。 与类一致的块对角结构在没有任何监督的情况下出现 。
2通用学习引擎:3D视觉与图形结合论文总结 , 简约性和自洽性揭示了深度网络的角色是成为外部观察和内部表征之间非线性映射的模型 。
此外 , 论文强调 , 闭环压缩结构在自然界中无处不在 , 适用于所有智能生物 , 这一点可以见于大脑(压缩感觉信息)、脊髓回路(压缩肌肉运动)、DNA(压缩蛋白质的功能信息)等等生物示例 。 因此 , 他们认为 , 压缩闭环转录可能是所有智能行为背后的通用学习引擎 。 它使智能生物和系统能够从看似复杂和无组织的输入中发现和提炼低维结构 , 并将它们转换为紧凑和有组织的内部结构 , 以便记忆和利用 。
为了说明这个框架的通用性 , 论文研究了另外两个任务:3D感知和决策(LeCun认为这是自主智能系统的两个关键模块) 。 本文整理 , 仅介绍3D感知中计算机视觉与计算机图形学的闭环 。
DavidMarr在其颇具影响力的著作《视觉》一书中提出的3D视觉经典范式提倡“分而治之”的方法 , 将3D感知任务划分为几个模块化过程:从低级2D处理(如边缘检测、轮廓草图)、中级2.5D解析(如分组、分割、图形和地面) , 以及高级3D重建(如姿势、形状)和识别(如对象) , 而相反 , 压缩闭环转录框架提倡“联合构建”思想 。
感知是压缩闭环转录?更准确地说 , 世界上物体的形状、外观甚至动态的3D表示应该是我们的大脑内部开发的最紧凑和结构化的表示 , 以相应地解释所有感知到的视觉观察 。 如果是这样 , 那么这两个原理表明紧凑和结构化的3D表示就是要寻找的内部模型 。 这意味着我们可以并且应该在一个闭环计算框架内统一计算机视觉和计算机图形 , 如下图所示:
不盲追大模型与堆算力!马毅、曹颖、沈向洋提出理解 AI 的两个基本原理:简约性与自一致性
文章图片
图10:计算机视觉和图形之间的闭环关系 , 用于视觉输入的紧凑和结构化3D模型
计算机视觉通常被解释为为所有2D视觉输入重建和识别内部3D模型的前向过程 , 而计算机图形学表示其对内部3D模型进行渲染和动画处理的逆过程 。 将这两个过程直接组合成一个闭环系统可能会带来巨大的计算和实践好处:几何形状、视觉外观和动力学中的所有丰富结构(例如稀疏性和平滑度)可以一起用于统一的3D模型 , 最紧凑 , 且与所有视觉输入一致 。
计算机视觉中的识别技术可以帮助计算机图形学在形状和外观空间中构建紧凑模型 , 并为创建逼真的3D内容提供新的方法 。 另一方面 , 计算机图形学中的3D建模和仿真技术可以预测、学习和验证计算机视觉算法分析的真实对象和场景的属性和行为 。 视觉和图形社区长期以来一直在实践“综合分析”的方法 。
外观和形状的统一表示?基于图像的渲染 , 其中 , 通过从一组给定图像中学习来生成新视图 , 可以被视为早期尝试用简约和自洽的原理缩小视觉和图形之间的差距 。 特别是 , 全光采样表明 , 可以用所需的最少图像数量(简约性)来实现抗锯齿图像(自洽性) 。
3更广泛的智能智能的神经科学人们会期望基本的智能原理对大脑的设计产生重大影响 。 简约和自洽原理为灵长类视觉系统的几个实验观察提供了新的思路 。 更重要的是 , 它们揭示了未来实验中要寻找的目标 。