理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远

理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远
文章图片
作者|BoazBarak编译|黄楠
编辑|陈彩娴上世纪九十年代 , 斯坦福大学的知名生物信息学教授RobTibshirani曾拟了一个词汇表 , 将机器学习与统计学中的不同概念作了简单而粗暴的对应关系:理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远
文章图片
一方面 , 这个表格为理解机器学习提供了基础的认识 , 但同时 , 其简单地将深度学习或机器学习中的概念归纳为统计学中的词义 , 也引起了大多数人对深度学习本质的认知偏差:即深度学习是“简单的统计” 。 然而 , 在深入探讨中 , 这样的认知在一定程度上阻碍了研究者理解深度学习成功的本质原因 。 在今年六月的一篇文章“Theuneasyrelationshipbetweendeeplearningand(classical)statistics”中 , 哈佛大学知名教授、理论计算机科学家BoazBarak就将深度学习与统计学进行了对比区分 , 指出深度学习的根本构成因素就与统计学有诸多不同 。 BoazBarak提出一个重要的观察:从模型的用途来看 , 如果是侧重预测与观察 , 那么具备黑匣子特性的深度学习模型可能是最好的选择;但如果是希望获取对事物的因果关系理解、提高可解释性 , 那么“简单”的模型可能表现更佳 。 这与马毅、曹颖、沈向洋三位科学家在上个月提出的构成智能两大原理之一的“简约性”见解不谋而合 。 与此同时 , BoazBarak通过展示拟合统计模型和学习数学这两个不同的场景案例 , 探讨其与深度学习的匹配性;他认为 , 虽然深度学习的数学和代码与拟合统计模型几乎相同 , 但在更深层次上 , 深度学习中的极大部分都可在“向学生传授技能”场景中被捕获 。 统计学习在深度学习中扮演着重要的角色 , 这是毋庸置疑的 。 但可以肯定的是 , 统计角度无法为理解深度学习提供完整的画面 , 要理解深度学习的不同方面 , 仍需要人们从不同的角度出发来实现 。 下面是BoazBarak的论述:1模型拟合中的预测与解释几千年来 , 科学家们一直在为观测结果拟合模型 。 比如在科学哲学书皮中所提到的 , 埃及天文学家托勒密提出了一个巧妙的行星运动模型 。 托勒密的模型是地心的(即行星围绕地球旋转) , 但有一系列“旋钮”(knobs , 具体来说就是“本轮”) , 使其具有出色的预测准确性 。 相比之下 , 哥白尼最初的日心说模型则是假设行星围绕太阳的圆形轨道 。 它比托勒密的模型更简单(“可调节旋钮”更少)、且整体上更正确 , 但在预测观察方面却不太准确 。 (哥白尼在后来也添加了他自己的本轮 , 从而与托勒密的表现可以相媲美 。 )托勒密和哥白尼的模型是无与伦比的 。 当你需要一个“黑匣子”来进行预测时 , 那托勒密的地心模型更胜一筹 。 而如果你想要一个可以“窥视内部”的简单模型 , 并作为解释星星运动的理论起点 , 那哥白尼的模型就更好 。 事实上 , 开普勒最终将哥白尼的模型改进为椭圆轨道 , 并提出了他的行星运动三定律 , 这使得牛顿能够使用地球上适用的相同引力定律来解释它们 。 为此 , 至关重要的是 , 日心模型并不仅是一个提供预测的“黑匣子” , 而是由几乎没有“活动部件”的简单数学方程给出的 。 多年来 , 天文学一直是发展统计技术的灵感来源 。 高斯和勒让德(独立地)在1800年左右发明了最小二乘回归 , 用于预测小行星和其他天体的轨道;柯西在1847年发明的梯度下降 , 也是受到了天文预测的推动 。 在物理学中 , (至少有时)你可以“拥有一切”——找到能够实现最佳预测准确性和数据最佳解释的“正确”理论 , 这被诸如奥卡姆剃刀原理之类的观点所捕捉 , 假设简单性、预测能力和解释性洞察力都是相互一致的 。 然而在许多其他领域 , 解释(或一般情况下称 , 洞察力)和预测的双重目标之间存在张力 。 如果只是想预测观察结果 , “黑匣子”可能是最好的选择 。 但如果你提取因果模型、一般原理或重要特征 , 那么一个容易理解和解释的简单模型可能会更好 。 模型的正确选择取决于其用途 。 例如 , 考虑一个包含许多个体的基因表达和表型(比如某种疾病)的数据集 , 如果其目标是预测个人生病的几率 , 往往会希望为该任务使用最佳模型 , 不管它有多复杂或它依赖于多少基因 。 相比之下 , 如果你的目标是在湿实验室中识别一些基因来进一步研究 , 那么复杂的黑匣子的用途将是有限的 , 即使它非常准确 。 2001年 , LeoBreiman在关于统计建模两种文化的著名文章“StatisticalModeling:TheTwoCultures”中 , 就有力地阐述了这一点 。 “数据建模文化”侧重于解释数据的简单生成模型 , 而“算法建模文化”对数据是如何产生的并不了解 , 而是专注于寻找能够预测数据的模型 。 Breiman认为 , 统计数据太受第一文化的支配 , 而这种关注“导致了不相关的理论和有问题的科学结论”和“阻止统计学家研究令人兴奋的新问题 。 ”但是 , Breiman的论文充满争议 。 虽然BradEfron对部分观点表示赞同 , 但“看第一遍 , LeoBreiman那篇令人振奋的论文看起来像是反对简约和科学洞察力 , 支持很多旋钮可操纵的黑盒子 。 而看第二遍 , 还是那个样子” 。 但在近期一篇文章(“Prediction,Estimation,andAttribution”)中 , Efron大方承认“事实证明 , Breiman比我更有先见之明:纯粹的预测算法在21世纪占据了统计的风头 , 其发展方向与Leo此前提到的差不多 。 ”2经典和现代预测模型无论机器学习是否“深度” , 它都属于Breiman所说的第二种文化 , 即专注于预测 , 这种文化已流传很长一段时间 。 例如Duda和Hart1973年的教科书《DeconstructingDistributions:APointwiseFrameworkofLearning》、以及Highleyman1962年《TheDesignandAnalysisofPatternRecognitionExperiments》的论文片段 , 对于今天的深度学习从业者来说 , 其辨识度非常高: