不盲追大模型与堆算力！马毅、曹颖、沈向洋提出理解 AI 的两个基本原理：简约性与自一致性( 四 ) 近两年

这有效地生成了一个“闭环”反馈系统，整个过程如图6所示。

文章图片
图6：非线性数据子流形到LDR的压缩闭环转录（通过在内部比较和最小化z和z^的差异）。这导致了编码器/传感器f和解码器/控制器g之间的自然追逃博弈，使解码的x^（蓝色虚线）的分布追逐并匹配观察到的数据x（黑色实线）的分布。
人们可以将单独学习DNN分类器f或生成器g的流行做法解释为学习闭环系统的开放式部分（图6）。这种目前流行的做法与开环控制非常相似，控制领域早已知道它存在问题且成本高昂：训练这样的部分需要对期望的输出（如类标签）进行监督；如果数据分布、系统参数或任务发生变化，这种开环系统的部署本质上是缺少稳定性、鲁棒性或自适应性的。例如，在有监督的环境中训练的深度分类网络，如果重新训练来处理具有新数据类别的新任务，通常会出现灾难性的遗忘。
相比之下，闭环系统本质上更加稳定和自适应。事实上， Hinton等人在1995年就已经提出了这一点。判别和生成部分需要分别作为完整学习过程的“唤醒”和“睡眠”阶段结合起来。
然而，仅仅闭环是不够的。
论文主张任何智能体都需要一种内部博弈机制，以便能够通过自我批评进行自我学习！这当中遵循的是博弈作为一种普遍有效的学习方式的概念：反复应用当前模型或策略来对抗对抗性批评，从而根据通过闭环收到的反馈不断改进模型或策略！
在这样的框架内，编码器f承担双重角色：除了通过最大化速率降低ΔR(Z)来学习数据x的表示z（如2.1节中所做的那样），它还应该作为反馈“传感器” ，主动检测数据x和生成的x^之间的差异。解码器g也承担双重角色：它是控制器，与f所检测到的x和x?之间的差异联系起来；同时又是解码器，尝试将整体的编码率最小化来实现目标（让步于给定的准确度）。
因此，最优的“简约”和“自洽”表示元组(z,f,g)可以解释为f(θ)和g(η)之间的零和博弈的平衡点，而不是基于组合速率降低的效用：
以上讨论是两个原理在有监督情况下的表现。
但论文强调，他们所提出的压缩闭环转录框架能够通过自我监督和自我批评来进行自我学习！
此外，由于速率降低已经为学习结构找到显式（子空间类型）表示，使得过去的知识在学习新任务/数据时更容易保留，可以作为保持自一致性的先验（记忆）。
最近的实证研究表明，这可以产生第一个具有固定内存的自包含神经系统，可以在不遭受灾难性遗忘的情况下逐步学习良好的LDR表示。对于这样一个闭环系统，遗忘（如果有的话）是相当优雅的。
此外，当再次将旧类别的图像提供给系统进行审查时，可以进一步巩固学习到的表示——这一特征与人类记忆的特征非常相似。从某种意义上说，这种受约束的闭环公式基本上确保了视觉记忆的形成可以是贝叶斯和自适应的——假设这些特征对大脑来说是理想的话。
如图8所示，如此学习的自动编码不仅表现出良好的样本一致性，而且学习到的特征还表现出清晰且有意义的局部低维（薄）结构。

文章图片
图8：图左：在CIFAR-10数据集（有10个类别的50,000张图像）的无监督设置中学习的自动编码的x与相应解码的x^之间的比较。图右：10个类别的无监督学习特征的t-SNE ，以及几个邻域及其相关图像的可视化。注意可视化特征中的局部薄（接近一维）结构，从数百维的特征空间投影。