不盲追大模型与堆算力!马毅、曹颖、沈向洋提出理解 AI 的两个基本原理:简约性与自一致性( 三 )


一旦我们意识到深度网络本身的作用是进行(基于梯度的)迭代优化以压缩、线性化和稀疏化数据 , 那么就很容易理解过去十年人工神经网络的“进化” , 尤其有助于解释为什么只有少数AI系统通过人工选择过程脱颖而出:从MLP到CNN到ResNet到Transformer 。
相比之下 , 网络结构的随机搜索 , 例如神经架构搜索 , 并没有产生能够有效执行一般任务的网络架构 。 他们猜想 , 成功的架构在模拟数据压缩的迭代优化方案方面变得越来越有效和灵活 。 前面提到的ReduNet和ResNet/ResNeXt之间的相似性可以例证 。 当然 , 还有许多其他例子 。
自洽性自洽性是关于“如何学习” , 即自主智能系统通过最小化被观察者和再生者之间的内部差异来寻求最自洽的模型来观察外部世界 。
仅凭借简约原理并不能确保学习模型能够捕获感知外部世界数据中的所有重要信息 。
例如 , 通过最小化交叉熵将每个类映射到一维“one-hot”向量 , 可以被视为一种简约的形式 。 它可能会学习到一个好的分类器 , 但学习到的特征会崩溃为单例 , 称为“神经崩溃” 。 如此学习来的特征不包含足够的信息来重新生成原始数据 。 即使我们考虑更一般的LDR模型类别 , 单独的降速目标也不会自动确定环境特征空间的正确维度 。 如果特征空间维度太低 , 学习到的模型会欠拟合数据;如果太高 , 模型可能会过拟合 。
在他们看来 , 感知的目标是学习一切可预测的感知内容 。 智能系统应该能够从压缩表示中重新生成观察到的数据的分布 , 生成后 , 无论它尽再大的努力 , 它自身也无法区分这个分布 。
论文强调 , 自洽和简约这两个原理是高度互补的 , 应该始终一起使用 。 仅靠自洽不能确保压缩或效率方面的增益 。
在数学和计算上 , 使用过度参数化的模型拟合任何训练数据或通过在具有相同维度的域之间建立一对一映射来确保一致性 , 而不需要学习数据分布中的内在结构是很容易的 。 只有通过压缩 , 智能系统才能被迫在高维感知数据中发现内在的低维结构 , 并以最紧凑的方式在特征空间中转换和表示这些结构 , 以便将来使用 。
此外 , 只有通过压缩 , 我们才能容易地理解过度参数化的原因 , 比如 , 像DNN通常通过数百个通道进行特征提升 , 如果其纯粹目的是在高维特征空间中进行压缩 , 则不会导致过度拟合:提升有助于减少数据中的非线性 , 从而使其更容易压缩和线性化 。 后续层的作用是执行压缩(和线性化) , 通常层数越多 , 压缩效果越好 。
在压缩到诸如LDR之类的结构化表示的特殊情况下 , 论文将一类自动编码(具体见原论文)称为“转录”(transcription) 。 这里的难点在于如何使目标在计算上易于处理 , 从而在物理上可以实现 。
速率降低ΔR给出了退化分布之间的明确首要距离度量 。 但它仅适用于子空间或高斯的混合 , 而不适用于一般分布!而我们只能期望内部结构化表示z的分布是子空间或高斯的混合 , 而不是原始数据x 。
这导致了一个关于学习“自洽”表示的相当深刻的问题:为了验证外部世界的内部模型是否正确 , 自主系统真的需要测量数据空间中的差异吗?
答案是否定的 。
关键是要意识到 , 要比较x和x^ , 智能体只需要通过相同的映射f比较它们各自的内部特征z=f(x)和z^=f(x^) , 来使z紧凑和结构化 。
测量z空间中的分布差异实际上是定义明确且有效的:可以说 , 在自然智能中 , 学习内部测量差异是有独立自主系统的大脑唯一可以做的事情 。