抽象|Yann LeCun最新发声：自监督+世界模型，让 AI 像人类一样学习与推理( 二 ) 中国移动|回应|信号|故障|江西

世界模型模块是最复杂的部分，具有双重作用。1.估计感知模块无法得到的缺失信息；2.合理预测世界的未来状态，其中包括世界的自然演变以及参与者行动的影响。世界模型是现实世界的模拟器，由于世界充满了不确定性，该模型必须能够处理多种可能的预测。直观的例子是：一个接近十字路口的司机可能会放慢汽车行驶的速度，防止另一辆接近十字路口的车没有按规矩停在停车标志上。

成本模块用来计算预测智能体（agent）的不合适程度。由两部分组成：内在成本（ intrinsic cost），特征是不可训练，但能实时计算“不适”：智能体损害、违反硬编码行为等；评价者（critic），它是一个可训练的模块，预测内在成本的未来值。

LeCun表示：成本模块是基本的行为驱动和内在动机的所在。因此，它将考虑到内在成本：不浪费能源，以及任务的具体消耗。成本模块是可分的，成本的梯度可以通过其他模块反向传播，用于规划、推理或学习。

参与者模块提供行动建议。参与者模块可以找到一个使估计的未来成本最小化的最佳行动序列，并在最佳序列中输出第一个行动，其方式类似于经典的最优控制。
短期记忆模块可以记录当前情况，预测世界状态，以及相关成本。

世界模型架构和自监督训练

世界模型架构的核心在于预测。
构建世界模型的一个关键挑战是如何使该模型能够表示多个模糊的预测。现实世界并不是完全可以预测的：一个特定的情况可能有多种演变的方式，并且许多与情况相关的细节与手头的任务无关。比如，我可能需要预测我开车时周围的汽车会做什么，但我不需要预测道路附近树木中个别叶子的详细位置。那么，世界模型如何学习现实世界的抽象表示，做到保留重要的细节、忽略不相关的细节，并且可以在抽象表示的空间中进行预测呢？
解决方案的一个关键要素是联合嵌入预测架构 (Joint Embedding Predictive Architecture ，JEPA)。JEPA 捕获两个输入（x 和 y）之间的依存关系。例如，x 可以是一段视频，y 可以是视频的下一段。输入 x 和 y 被馈送到可训练的编码器，这些编码器提取它们的抽象表示，即 sx 和 sy。预测器模块被训练为从 sx 预测 sy。预测器可以使用潜在变量 z 来表示 sy 中存在但 sx 中不存在的信息。JEPA 以两种方式处理预测中的不确定性：（1）编码器可能会选择丢弃难以预测的有关 y 的信息；（2）当潜在变量 z 在一个集合上变化时，将导致预测在一个集合上变化一组似是而非的预测。
那么，我们如何训练 JEPA 呢？
截至目前为止，研究者所使用的唯一方法就是“对比”，包括显示兼容 x 和 y 的示例，以及许多 x 和不兼容 y 的示例。但是当表示是高维状态时，这是相当不切实际的。
过去两年还出现了另一种训练策略：正则化方法。当应用于 JEPA 训练时，该方法使用了四个标准：

使 x 的表示最大限度地提供关于 x 的信息
使 y 的表示最大限度地提供关于 y 的信息
使 y 的表示可以从 x 的表示中最大程度地预测
使预测器使用尽可能少的潜在变量信息来表示预测中的不确定性

这些标准可以以各种方式转化为可微的成本函数。一种方法是 VICReg 方法，即方差/变量（Variance）、不变性（Invariance）、协方差正则化(Covariance Regularization）。在 VICReg 中，x 和 y 表示的信息内容通过将其分量的方差保持在阈值之上并通过使这些分量尽可能地相互独立来最大化。同时，该模型试图使 y 的表示可以从 x 的表示中预测。此外，潜变量的信息内容通过使其离散、低维、稀疏或噪声来最小化。