理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远( 五 )

理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远
文章图片
图注:来自Hinton团队论文“BigSelf-SupervisedModelsareStrongSemi-SupervisedLearners”的表格 。 请注意监督学习、微调(100%)自监督和自监督+线性探测在性能上的普遍相似性理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远
文章图片
图注:摘自论文“RevisitingModelStitchingtoCompareNeuralRepresentations”的自监督与监督模型 。 左图——如果自监督模型的准确度比监督模型低3% , 那么 , 完全兼容的表示将造成p·3%的拼接惩罚(p层来自自监督模型时) 。 如果模型完全不兼容 , 那么随着更多模型的缝合 , 预计准确度会急剧下降 。 右图——拼接不同自监督模型的实际结果 。 自监督+简单模型的优势在于 , 它们可以将特征学习或“深度学习魔法”(深度表示函数的结果)与统计模型拟合(由线性或其他“简单”分类器完成 , 分离出来在此表示之上) 。 最后 , 虽然是推测 , 但“元学习”似乎通常等同于学习表示这一事实(详情看论文“RapidLearningorFeatureReuse?TowardsUnderstandingtheEffectivenessofMAML”) , 可以视为另一个支持本文观点的证据 , 不管模型表面上优化的目标是什么 。 情况2:过度参数化读者可能已经注意到 , 我跳过了统计学习模型与深度学习模型在实际应用中存在差异的典型例子 , 即缺少“偏差-方差权衡”以及过度参数化模型出色的泛化能力 。 我不详细讲这些例子的原因有两个:一是如果监督学习确实等于自监督+简单的“底层”学习 , 那么就可以解释它的泛化能力(详情请看论文“Forself-supervisedlearning,Rationalityimpliesgeneralization,provably”);二是我认为过度参数化并不是深度学习成功的关键 。 深度网络之所以特别 , 并不是因为它们与样本数量相比很大 , 而是因为它们的绝对值很大 。 实际上 , 无监督/自监督学习模型中通常没有过度参数化 。 即使是大规模的语言模型 , 它们也只是数据集更大 , 但这也并没有减少它们性能的神秘性 。 理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远
文章图片
图注:在“TheDeepBootstrapFramework:GoodOnlineLearnersareGoodOfflineGeneralizers”这篇论文中 , 研究者的发现表明 , 如今的深度学习架构在“过度参数化”与“欠采样”状态下表现相似(其中 , 模型在有限数据上训练多代 , 直到过度拟合:也就是上图所示的“真实世界”) , 在“参数化不足”与“在线”情况下也如此(其中 , 模型只训练一代 , 每个样本只看到一次:也就是上图中的“理想世界”)5总结毫无疑问 , 统计学习在深度学习中扮演着重要的角色 。 但是 , 如果仅仅将深度学习视为一个比经典模型拟合更多旋钮(knobs)的模型 , 则会忽略其成功背后的许多因素 。 所谓的“人类学生”隐喻更是不恰当表述 。 深度学习与生物进化相似 , 虽然对同一规则(即经验损失的梯度下降)有许多重复的应用 , 但会产生高度复杂的结果 。 在不同的时间内 , 神经网络的不同组成部分似乎会学习不同的内容 , 包括表示学习、预测拟合、隐式正则化和纯噪声等 。 目前我们仍在寻找正确的视角来提出有关深度学习的问题 , 更别说回答这些问题了 。 任重道远 , 与君共勉 。 原文链接:【理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远】https://windowsontheory.org/2022/06/20/the-uneasy-relationship-between-deep-learning-and-classical-statistics/
更多内容 , 点击下方关注:mp-common-profile扫码添加AI科技评论微信号 , 投稿&进群: