Yann LeCun最新发声：自监督+世界模型，让 AI 像人类一样学习与推理( 二 ) 作者|维克多、西西、王晔编辑

成本模块用来计算预测智能体（agent）的不合适程度。由两部分组成：内在成本（intrinsiccost），特征是不可训练，但能实时计算“不适”：智能体损害、违反硬编码行为等；评价者（critic），它是一个可训练的模块，预测内在成本的未来值。
LeCun表示：成本模块是基本的行为驱动和内在动机的所在。因此，它将考虑到内在成本：不浪费能源，以及任务的具体消耗。成本模块是可分的，成本的梯度可以通过其他模块反向传播，用于规划、推理或学习。
参与者模块提供行动建议。参与者模块可以找到一个使估计的未来成本最小化的最佳行动序列，并在最佳序列中输出第一个行动，其方式类似于经典的最优控制。更多内容↓↓↓短期记忆模块可以记录当前情况，预测世界状态，以及相关成本。
3世界模型架构和自监督训练
世界模型架构的核心在于预测。
构建世界模型的一个关键挑战是如何使该模型能够表示多个模糊的预测。现实世界并不是完全可以预测的：一个特定的情况可能有多种演变的方式，并且许多与情况相关的细节与手头的任务无关。比如，我可能需要预测我开车时周围的汽车会做什么，但我不需要预测道路附近树木中个别叶子的详细位置。那么，世界模型如何学习现实世界的抽象表示，做到保留重要的细节、忽略不相关的细节，并且可以在抽象表示的空间中进行预测呢？
解决方案的一个关键要素是联合嵌入预测架构(JointEmbeddingPredictiveArchitecture ， JEPA) 。 JEPA捕获两个输入（x和y）之间的依存关系。例如， x可以是一段视频， y可以是视频的下一段。输入x和y被馈送到可训练的编码器，这些编码器提取它们的抽象表示，即sx和sy 。预测器模块被训练为从sx预测sy 。预测器可以使用潜在变量z来表示sy中存在但sx中不存在的信息。 JEPA以两种方式处理预测中的不确定性：（1）编码器可能会选择丢弃难以预测的有关y的信息；（2）当潜在变量z在一个集合上变化时，将导致预测在一个集合上变化一组似是而非的预测。
那么，我们如何训练JEPA呢？
截至目前为止，研究者所使用的唯一方法就是“对比” ，包括显示兼容x和y的示例，以及许多x和不兼容y的示例。但是当表示是高维状态时，这是相当不切实际的。
过去两年还出现了另一种训练策略：正则化方法。当应用于JEPA训练时，该方法使用了四个标准：
使x的表示最大限度地提供关于x的信息
使y的表示最大限度地提供关于y的信息
使y的表示可以从x的表示中最大程度地预测
使预测器使用尽可能少的潜在变量信息来表示预测中的不确定性
更多内容↓↓↓这些标准可以以各种方式转化为可微的成本函数。一种方法是VICReg方法，即方差/变量（Variance）、不变性（Invariance）、协方差正则化(CovarianceRegularization）。在VICReg中， x和y表示的信息内容通过将其分量的方差保持在阈值之上并通过使这些分量尽可能地相互独立来最大化。同时，该模型试图使y的表示可以从x的表示中预测。此外，潜变量的信息内容通过使其离散、低维、稀疏或噪声来最小化。

文章图片
JEPA的美妙之处在于它自然地产生了输入的信息抽象表示，消除了不相关的细节，并且可以执行预测。这使得JEPA可以相互堆叠，以便学习具有更高抽象级别的表示，可以进行长期预测。
例如，一个场景可以在高层次上描述为“厨师正在制作可丽饼” 。它可以预测厨师会去取面粉、牛奶和鸡蛋，将食材混合，把面糊舀进锅里，将面糊油炸，并翻转可丽饼，然后不断重复该过程。在较低层次的表达上，这个场景可能是倒一勺面糊并舀均匀，且将其铺在锅周围。一直持续到每一毫秒的厨师的手的精确轨迹。在低层次的手部轨迹上，我们的世界模型只能进行短期的准确预测。但在更高的抽象层次上，它可以做出长期的预测。