理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远( 四 )
解锁能力 。 随着资源(数据、计算、模型大小)的拓展 , 深度学习模型的不连续改进一次又一次地被看到 , 这在一些合成环境中也得到了证明 。
文章图片
图注:随着模型大小的增加 , PaLM模型在一些基准测试中显示出一些不连续的改进(上述图中只有三个大小的警告) , 并解锁了一些令人惊讶的功能 , 比如解释笑话 。 性能在很大程度上与损失或数据无关 。 不止一种自监督损失 , 有几种对比性和重建性损失被用于图像 。 语言模型有时采用单面重建(预测下一个标记) , 有时则是使用掩蔽模型 , 其目标是预测来自左右标记的掩蔽输入 。 也可以使用稍微不同的数据集 , 这可能会影响效率 , 但只要做出“合理”的选择 , 常规情况下 , 原始资源比使用的特定损失或数据集更能预测性能 。 有些实例比其他实例更难 。 这一点不只限于自监督学习 , 数据点或存在一些固有的“难度级别” 。 事实上 , 有几个实际证据表明 , 不同的学习算法有不同的“技能水平” , 不同的点有不同的“难度水平”(分类器f对x进行正确分类的概率 , 随着f的技能单向递增 , 随x的难度单向递减) 。 “技能与难度”范式是对Recht和Miller等人所发现的“线上准确性”现象最清晰的解释 , 在我同Kaplun、Ghosh、Garg和Nakkiran的合著论文中 , 还展示了数据集中的不同输入如何具有固有的“难度特征” , 常规情况下 , 该特征似乎对不同的模型来说是稳健的 。
文章图片
图注:Miller等人的图表显示了在CIFAR-10上训练并在CINIC-10上测试的分类器的线现象准确性
文章图片
图注:将数据集解构为来自Kaplun和Ghosh等人在论文“DeconstructingDistributions:APointwiseFrameworkofLearning”中的不同“难度概况”点 , 以获得越来越多的资源分类器 。 顶部图表描述了最可能类的不同softmax概率 , 作为由训练时间索引的某个类别分类器的全局精度的函数;底部饼图展示了将不同数据集分解为不同类型的点 。 值得注意的是 , 这种分解对于不同的神经架构是相似的 。 训练即教学 。 现代对大模型的训练似乎更像是在教学生 , 而不是让模型适应数据 , 在学生不理解或看起来疲劳(训练偏离)时采取“休息”或尝试其他方式 。 Meta大模型的训练日志很有启发性——除了硬件问题外 , 还可以看到一些干预措施 , 例如在训练过程中切换不同的优化算法 , 甚至考虑“热交换”激活函数(GELU到RELU) 。 如果将模型训练视为拟合数据而不是学习表示 , 则后者没有多大意义 。
文章图片
文章图片
图注:Meta的训练日志节选下面探讨两种情况:情况1:监督学习到目前为止 , 我们只讨论了自监督学习 , 但深度学习的典型例子仍然是监督学习 , 毕竟深度学习的“ImageNet时刻”是来自ImageNet 。 那么 , 我们上面所探讨的内容是否适用于监督学习呢?首先 , 有监督的大规模深度学习的出现 , 在某种程度上是一个历史性的意外 , 这得益于大型高质量标记数据集(即ImageNet)的可用性 。 可以想象另一种历史:深度学习首先通过无监督学习在自然语言处理方面取得突破性进展 , 然后才转移到视觉和监督学习中 。 其次 , 有一些证据表明 , 即使监督学习与自监督学习使用完全不同的损失函数 , 它们在“幕后”的行为也相似 。 两者通常都能达到相同的性能 。 在“RevisitingModelStitchingtoCompareNeuralRepresentations”这篇论文中也发现 , 它们学习了相似的内部表示 。 具体来说 , 对于每一个 , 都可以将通过自监督训练的深度d模型的首k层数与监督模型的最后d-k层数“缝合”起来 , 并且使性能几乎保持原有水平 。
- 量子|印娟:与量子“纠缠”的女科学家
- 生物多样性|“接棒”老科学家 他破译植物演化历史“密码”
- DNA|DNA精确操控碳纳米管晶格
- 聘任叶思宇院士、张久俊院士!美锦成山西首个设首席科学家的民营企业
- 本文转自:津云8月3日|米磊:企业家、科学家加强合作 共同助推新一轮科技革命在中国诞生
- 本文转自:央广网央广网北京8月3日消息(见习记者 庞婷)8月3日上午|近1万平方米元宇宙体验馆月底亮相2022年服贸会电信、计算机和信息服务专题展
- 历史上的今天:字节跳动收购 Musical.ly;PlayStation 之父诞生;早期的女性计算机先驱
- 科学家们认为|地球磁场翻转会发生什么?
- 本文转自:科技日报图片来源:俄罗斯卫星通讯社俄罗斯莫斯科国立测绘大学科学家成功简化了当前...|全新太空定位仪可构建360°全景|创新连线·俄罗斯
- 电子商务|拦不住了!继九章计算机之后,阿里量子计算拿下第一