LeCun用62页论文公布未来十年研究计划:AI自主智能( 二 )


(2)预测未来可能的状态 。 由于世界充满了不确定性 , 该模块必须能够涵盖出多种可能的预测 。
4、成本模块:用来计算标量(scalar)的输出 , 它可以预测智能体的不适程度(discomfortoftheagent , 智能体受到的损害、违反硬编码的行为约束等) 。
该模块又有两个子模块:
(1)内在成本模块(cost) , 用来即时计算“不适感”;
(2)评判家(critic):预测内在成本模块的未来值 。
5、行动模块:用来计算要实现的动作序列 。 行动模块可以找到一个使未来成本模块最小化的最优动作序列 , 并以类似于经典最优控制的方式 , 以最优序列输出第一个动作 。
6、短期内存模块:跟踪当前和预测的世界状态以及相关成本 。
其中 , 对于这个架构的核心——世界模块 , 最关键的挑战是如何使其能够表示出多个合理的预测 。
此外 , 它在学习世界的抽象表示时 , 还要学会忽略不相关的信息 , 只保留最有用的细节 。
比如在开车时 , 只需要预测驾驶员周围的汽车会做什么 , 不需要预测道路两旁树木中每片叶子的详细位置 。
对此 , LeCun也给了一个可能的解决方案:
联合嵌入预测架构(JEPA) , 用它来处理预测中的不确定性 。
同时 , 他还提出用非对比自监督学习对JEPA进行训练 , 以及从不同时间尺度上进行预测的分级JEPA , 它可以将复杂任务拆解为一系列不那么抽象的子任务 。
LeCun用62页论文公布未来十年研究计划:AI自主智能
文章图片
AI待解决的问题还有很多LeCun表示 , 对于未来几十年来说 , 训练出来这样一个世界模型是人工智能要取得突破性进展必须面对的最大挑战 。
目前来看 , 要想实现上面这个架构 , 还有很多方面都有待定义:比如如何精确地训练critic、如何构造和训练配置器、以及如何使用短期内存跟踪世界状态 , 并存储世界状态、动作和相关内在成本的历史来调整critic……
除此之外 , LeCun也在论文中指出 , 对于未来的自主人工智能研究:
(1)扩大模型规模有必要 , 但不够;
(2)奖励机制也不够 , 基于观察的自监督学习才是更有效的方式;
(3)推理(reason)和计划(plan)实质上都归结于推断(inference):找到一系列动作和潜在变量 , 以最小化(可微)目标 。 这也是使推理与基于梯度的学习能够兼容的办法 。
(4)在以上这种情况下 , 可能就不需要明确的符号操作机制了 。
更多细节可以查看论文原文:
https://openreview.net/forum?id=BZ5a1r-kVsf参考链接:
[1]https://twitter.com/ylecun/status/1541492391982555138[2]https://ai.facebook.com/blog/yann-lecun-advances-in-ai-research/【LeCun用62页论文公布未来十年研究计划:AI自主智能】—完—
量子位QbitAI·头条号签约