不盲追大模型与堆算力!马毅、曹颖、沈向洋提出理解 AI 的两个基本原理:简约性与自一致性( 二 )


1智能的两个原理:简约性与自洽性在这篇工作中 , 三位科学家提出了解释人工智能构成的两个基本原理 , 分别是简约性与自洽性(也称为“自一致性”) , 并以视觉图像数据建模为例 , 从简约性和自洽性的第一原理推导出了压缩闭环转录框架 。
简约性所谓简约性 , 就是“学习什么” 。 智能的简约性原理 , 要求系统通过计算有效的方式来获得紧凑和结构化的表示 。 也就是说 , 智能系统可以使用任何描述世界的结构化模型 , 只要它们能够简单有效地模拟现实感官数据中的有用结构 。 系统应该能够准确有效地评估学习模型的好坏 , 并且使用的衡量标准是基础、通用、易于计算和优化的 。
以视觉数据建模为例 , 简约原理试图找到一个(非线性)变换f来实现以下目标:
压缩:将高维感官数据x映射到低维表示z;
线性化:将分布在非线性子流形上的每一类对象映射到线性子空间;
划痕(scarification):将不同的类映射到具有独立或最大不连贯基础的子空间 。
也就是将可能位于高维空间中的一系列低维子流形上的真实世界数据分别转换为独立的低维线性子空间系列 。 这种模型称为“线性判别表示”(lineardiscriminativerepresentation , LDR) , 压缩过程如图2所示:
不盲追大模型与堆算力!马毅、曹颖、沈向洋提出理解 AI 的两个基本原理:简约性与自一致性
文章图片
图2:寻求线性和判别表示 , 将通常分布在许多非线性低维子流形上的高维感官数据映射到与子流形具有相同维度的独立线性子空间集 。
在LDR模型系列中 , 存在衡量简约性的内在度量 。 也就是说 , 给定一个LDR , 我们可以计算所有子空间上的所有特征所跨越的总“体积”以及每个类别的特征所跨越的“体积”之和 。 然后 , 这两个体积之间的比率给出了一个自然的衡量标准 , 表明LDR模型有多好(往往越大越好) 。
根据信息论 , 分布的体积可以通过其速率失真来衡量 。
马毅团队在2022年的一个工作“ReduNet:AWhite-boxDeepNetworkfromthePrincipleofMaximizingRateReduction”表明 , 如果使用高斯的率失真函数并选择一个通用的深度网络(比如ResNet)来对映射f(x,θ)进行建模 , 通过最大限度地降低编码率 。
不盲追大模型与堆算力!马毅、曹颖、沈向洋提出理解 AI 的两个基本原理:简约性与自一致性
文章图片
图5:非线性映射f的构建块 。 图左:ReduNet的一层 , 作为投影梯度上升的一次迭代 , 它精确地由扩展或压缩线性算子、非线性softmax、跳过连接和归一化组成 。 图中和图右:分别是一层ResNet和ResNeXt 。
敏锐的读者可能已经认识到 , 这样的图表与ResNet(图5中间)等流行的“久经考验”的深层网络非常相似 , 包括ResNeXt中的平行列(图5右)和专家混合(MoE) 。
从展开优化方案的角度来看 , 这为一类深度神经网络提供了有力的解释 。 甚至在现代深度网络兴起之前 , 用于寻求稀疏性的迭代优化方案 , 例如ISTA或FISTA就已被解释为可学习的深度网络 。
通过实验 , 他们证明 , 压缩可以诞生一种有建设性的方式来推导深度神经网络 , 包括它的架构和参数 , 作为一个完全可解释的白盒:它的层对促进简约的原理性目标进行迭代和增量优化 。 因此 , 对于如此获得的深度网络 , ReduNets , 从数据X作为输入开始 , 每一层的算子和参数都以完全向前展开的方式构造和初始化 。
这与深度学习中的流行做法非常不同:从一个随机构建和初始化的网络开始 , 然后通过反向传播进行全局调整 。 人们普遍认为 , 由于需要对称突触和复杂的反馈形式 , 大脑不太可能利用反向传播作为其学习机制 。 在这里 , 前向展开优化只依赖于可以硬连线的相邻层之间的操作 , 因此更容易实现和利用 。