理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远( 四 )


解锁能力 。 随着资源(数据、计算、模型大小)的拓展 , 深度学习模型的不连续改进一次又一次地被看到 , 这在一些合成环境中也得到了证明 。 理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远
文章图片
图注:随着模型大小的增加 , PaLM模型在一些基准测试中显示出一些不连续的改进(上述图中只有三个大小的警告) , 并解锁了一些令人惊讶的功能 , 比如解释笑话 。 性能在很大程度上与损失或数据无关 。 不止一种自监督损失 , 有几种对比性和重建性损失被用于图像 。 语言模型有时采用单面重建(预测下一个标记) , 有时则是使用掩蔽模型 , 其目标是预测来自左右标记的掩蔽输入 。 也可以使用稍微不同的数据集 , 这可能会影响效率 , 但只要做出“合理”的选择 , 常规情况下 , 原始资源比使用的特定损失或数据集更能预测性能 。 有些实例比其他实例更难 。 这一点不只限于自监督学习 , 数据点或存在一些固有的“难度级别” 。 事实上 , 有几个实际证据表明 , 不同的学习算法有不同的“技能水平” , 不同的点有不同的“难度水平”(分类器f对x进行正确分类的概率 , 随着f的技能单向递增 , 随x的难度单向递减) 。 “技能与难度”范式是对Recht和Miller等人所发现的“线上准确性”现象最清晰的解释 , 在我同Kaplun、Ghosh、Garg和Nakkiran的合著论文中 , 还展示了数据集中的不同输入如何具有固有的“难度特征” , 常规情况下 , 该特征似乎对不同的模型来说是稳健的 。 理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远
文章图片
图注:Miller等人的图表显示了在CIFAR-10上训练并在CINIC-10上测试的分类器的线现象准确性理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远
文章图片
图注:将数据集解构为来自Kaplun和Ghosh等人在论文“DeconstructingDistributions:APointwiseFrameworkofLearning”中的不同“难度概况”点 , 以获得越来越多的资源分类器 。 顶部图表描述了最可能类的不同softmax概率 , 作为由训练时间索引的某个类别分类器的全局精度的函数;底部饼图展示了将不同数据集分解为不同类型的点 。 值得注意的是 , 这种分解对于不同的神经架构是相似的 。 训练即教学 。 现代对大模型的训练似乎更像是在教学生 , 而不是让模型适应数据 , 在学生不理解或看起来疲劳(训练偏离)时采取“休息”或尝试其他方式 。 Meta大模型的训练日志很有启发性——除了硬件问题外 , 还可以看到一些干预措施 , 例如在训练过程中切换不同的优化算法 , 甚至考虑“热交换”激活函数(GELU到RELU) 。 如果将模型训练视为拟合数据而不是学习表示 , 则后者没有多大意义 。 理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远
文章图片
理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远
文章图片
图注:Meta的训练日志节选下面探讨两种情况:情况1:监督学习到目前为止 , 我们只讨论了自监督学习 , 但深度学习的典型例子仍然是监督学习 , 毕竟深度学习的“ImageNet时刻”是来自ImageNet 。 那么 , 我们上面所探讨的内容是否适用于监督学习呢?首先 , 有监督的大规模深度学习的出现 , 在某种程度上是一个历史性的意外 , 这得益于大型高质量标记数据集(即ImageNet)的可用性 。 可以想象另一种历史:深度学习首先通过无监督学习在自然语言处理方面取得突破性进展 , 然后才转移到视觉和监督学习中 。 其次 , 有一些证据表明 , 即使监督学习与自监督学习使用完全不同的损失函数 , 它们在“幕后”的行为也相似 。 两者通常都能达到相同的性能 。 在“RevisitingModelStitchingtoCompareNeuralRepresentations”这篇论文中也发现 , 它们学习了相似的内部表示 。 具体来说 , 对于每一个 , 都可以将通过自监督训练的深度d模型的首k层数与监督模型的最后d-k层数“缝合”起来 , 并且使性能几乎保持原有水平 。