理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远( 二 )

理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远
文章图片
同样地 , Highleyman的手写字符数据集和被用来与数据集拟合的架构Chow(准确率约为58%)也引起了现代读者的共鸣 。 理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远
文章图片
3为什么深度学习不同?1992年 , StuartGeman、ElieBienenstock和ReneDoursat共同写了一篇题为“NeuralNetworksandtheBias/VarianDilemma”的论文 , 其中谈到一些悲观的看法 , 例如 , “当前的前馈神经网络 , 在很大程度上不足以解决机器感知和机器学习中的难题”;具体来说 , 他们认为通用神经网络无法成功解决困难的任务 , 神经网络成功的唯一途径是通过手工设计特征 。 用他们的话来说 , 即是:“重要的特征必须是内置的或‘硬连线的’(hard-wired)……而不是通过统计的方法来学习 。 ”事后看来 , 他们的观点完全错了 。 而且 , 现代神经网络的架构如Transformer甚至比当时的卷积网络更通用 。 但理解他们犯错的背后原因是很有趣的 。 我认为 , 他们犯错的原因是深度学习确实与其他学习方法不同 。 一个先验的现象是:深度学习似乎只是多了一个预测模型 , 像最近的邻居或随机森林 。 它可能有更多的“旋钮”(knobs) , 但这似乎是数量上而不是质量上的差异 。 用PWAndreson的话来说 , 就是“moreisdifferent”(多的就是不同的) 。 在物理学中 , 一旦规模发生了几个数量级的变化 , 我们往往只需要一个完全不同的理论就可以解释 , 深度学习也是如此 。 事实上 , 深度学习与经典模型(参数或非参数)的运行过程是完全不同的 , 即使从更高的角度看 , 方程(和Python代码)看起来相同 。 为了解释这一点 , 我们来看两个非常不同例子的学习过程:拟合统计模型 , 与教学生学习数学 。 场景A:拟合统计模型通常来说 , 将统计模型与数据进行拟合的步骤如下:1、我们观察一些数据x与y 。 可将x视为一个nxp的矩阵 , y视为一个n维向量;数据来源于一个结构和噪声模型:每个坐标的得到形式是 , 其中是对应的噪声 , 为简单起见使用了加性噪声 , 而是正确的真实标签 。 )2、通过运行某种优化算法 , 我们可以将模型拟合到数据中 , 使的经验风险最小 。 也就是说 , 我们使用优化算法来找到的最小化数量 , 其中是一个损失项(捕捉距离y有多近) , 是一个可选的规范化项(试图使得偏向更简单的模型) 。 3、我们希望 , 我们的模型能具有良好的总体损失 , 因为泛化误差/损失很小(这种预测是基于实验数据所在的总体数据来获得的) 。 理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远
文章图片
图注:BradleyEfron经过对噪音的观察所复现的牛顿第一定律漫画
这种非常通用的范式包含了许多设置 , 包括最小二乘线性回归、最近邻、神经网络训练等等 。 在经典的统计设置中 , 我们期望观察到以下情况:偏差/方差权衡:将F作为优化的模型集 。 (当我们处于非凸设置和/或有一个正则器项 , 我们可以让F作为这种模型的集合 , 考虑到算法选择和正则器的影响 , 这些模型可以由算法以不可忽略的概率实现 。 )F的偏差是对正确标签的最佳近似 , 可以通过元素来实现 。 F的类越大 , 偏差越小 , 当 , 偏差甚至可以是零 。 然而 , 当F类越大 , 则需要越多样本来缩小其成员范围 , 从而算法输出模型中的方差就越大 。 总体泛化误差是偏差项和方差贡献的总和 。 因此 , 统计学习通常会显示偏差/方差权衡 , 并通过正确模型复杂性的“金发姑娘选择”来最小化整体误差 。 事实上 , Geman等人也是这么做的 , 通过说“偏差-方差困境导致的基本限制适用于包括神经网络在内的所有非参数推理模型”来证明他们对神经网络的悲观情绪是合理的 。 更多并非总是最好的 。 在统计学习中 , 获得更多的特征或数据并不一定能提高性能 。 例如 , 从包含许多不相关特征的数据中学习更具挑战性 。 类似地 , 从混合模型中学习 , 其中数据来自两个分布之一(例如和) , 比独立学习单个更难 。 收益递减 。 在许多情况下 , 将预测噪声降低到某个参数 , 其所需的数据点数量在某些参数k下以的形式拓展 。 在这种情况下 , 需要大约k个样本来“起飞” , 而一旦这样做 , 则会面临收益递减的制度 , 即假设花耗n个点来达到(比如)90%的准确度 , 那么想要将准确度提高到95% , 则大约需要另外3n个点 。 一般来说 , 随着资源增加(无论是数据、模型的复杂性 , 还是计算) , 我们希望捕捉到更多更细的区别 , 而不是解锁新的质量上的能力 。 对损失、数据的强烈依赖 。 在将模型拟合到高维数据时 , 一个很小的细节就有可能造成结果的很大不同 。 统计学家知道 , 诸如L1或L2正则化器之类的选择很重要 , 更不用说使用完全不同的数据集 , 不同数量的高维优化器将具有极大的差异性 。 数据点没有自然的“难度”(至少在某些情况下) 。 传统上认为 , 数据点是独立于某个分布进行采样的 。 尽管靠近决策边界的点可能更难分类 , 但考虑到高维度的测量集中现象 , 可预计大多数点的距离将存在相似的情况 。 因此 , 至少在经典数据分布中 , 并不期望点在其难度水平上有很大差异 。 然而 , 混合模型可以显示这种差异的不同难度级别 , 所以与上述其他问题不同 , 这种差异在统计设置中不会非常令人惊讶 。 场景B:学习数学与上述相反 , 我们来谈谈教学生一些特定的数学题目(如计算导数) , 给予他们常规指导及要做的练习 。 这不是一个正式定义的设置 , 但可考虑它的一些定性特征: