不盲追大模型与堆算力!马毅、曹颖、沈向洋提出理解 AI 的两个基本原理:简约性与自一致性

不盲追大模型与堆算力!马毅、曹颖、沈向洋提出理解 AI 的两个基本原理:简约性与自一致性
文章图片
近两年 , “大力(算力)出奇迹”的大模型成为人工智能领域多数研究者的追求趋势 。 然而 , 其背后巨大的计算成本与资源耗费问题也弊端渐显 , 一部分科学家开始对大模型投以严肃的目光 , 并积极寻求解决之道 。 新的研究表明 , 要实现AI模型的优秀性能 , 并不一定要依靠堆算力与堆规模 。 论文作者|马毅、曹颖、沈向洋整理|西西
编辑|陈彩娴深度学习火热十年 , 不得不说 , 其机遇与瓶颈在这十年的研究与实践中已吸引了大量的目光与讨论 。
其中 , 瓶颈维度 , 最引人注意的莫过于深度学习的黑盒子特性(缺乏可解释性)与“大力出奇迹”(模型参数越来越大 , 算力需求越来越大 , 计算成本也越来越高) 。 此外 , 还有模型的稳定性不足、安全漏洞等等问题 。
而本质上 , 这些问题部分是由深度神经网络的“开环”系统性质所引起 。 要破除深度学习的B面“魔咒” , 单靠扩大模型规模与堆算力或许远远不够 , 而是要追根溯源 , 从构成人工智能系统的基本原理 , 从一个新的视角(如闭环)理解“智能” 。
7月12日 , 人工智能领域的三位知名华人科学家马毅、曹颖与沈向洋便联名在arXiv上发表了一篇文章 , “OnthePrinciplesofParsimonyandSelf-ConsistencyfortheEmergenceofIntelligence” , 提出了一个理解深度网络的新框架:压缩闭环转录(compressiveclosed-looptranscription) 。
这个框架包含两个原理:简约性(parsimony)与自洽性/自一致性(self-consistency) , 分别对应AI模型学习过程中的“学习什么”与“如何学习” , 被认为是构成人工/自然智能的两大基础 , 在国内外的人工智能研究领域引起了广泛关注 。
不盲追大模型与堆算力!马毅、曹颖、沈向洋提出理解 AI 的两个基本原理:简约性与自一致性
文章图片
论文链接:https://arxiv.org/pdf/2207.04630.pdf三位科学家认为 , 真正的智能必须具备两个特征 , 一是可解释性 , 二是可计算性 。
然而 , 在过去十年 , 人工智能的进步主要基于使用“蛮力”训练模型的深度学习方法 , 在这种情况下 , 虽然AI模型也能获得功能模块来进行感知与决策 , 但学习到的特征表示往往是隐式的 , 难以解释 。
此外 , 单靠堆算力来训练模型 , 也使得AI模型的规模不断增大 , 计算成本不断增加 , 且在落地应用中出现了许多问题 , 如神经崩溃导致学习到的表征缺少多样性 , 模式崩溃导致训练缺乏稳定性 , 模型对适应性和对灾难性遗忘的敏感性不佳等等 。
三位科学家认为 , 之所以出现上述问题 , 是因为当前的深度网络中 , 用于分类的判别模型和用于采样或重放的生成模型的训练在大部分情况下是分开的 。 此类模型通常是开环系统 , 需要通过监督或自监督进行端到端的训练 。 而维纳等人早就发现 , 这样的开环系统不能自动纠正预测中的错误 , 也不能适应环境的变化 。
因此 , 他们主张在控制系统中引入“闭环反馈” , 让系统能够学习自行纠正错误 。 在这次的研究中 , 他们也发现:用判别模型和生成模型组成一个完整的闭环系统 , 系统就可以自主学习(无需外部监督) , 并且更高效 , 稳定 , 适应性也强 。
不盲追大模型与堆算力!马毅、曹颖、沈向洋提出理解 AI 的两个基本原理:简约性与自一致性
文章图片
图注:左右到右分别为沈向洋(港中深校长讲席教授 , 美国国家工程院外籍院士 , 原微软全球执行副总裁)、曹颖(美国国家科学院院士 , 加州大学伯克利分校教授)与马毅(加州大学伯克利分校教授) 。