神经网络为何越大越好?这篇NeurIPS论文证明:鲁棒性是泛化的基础
文章图片
新智元报道
编辑:LRS
【新智元导读】神经网络越大越好几乎已成了共识 , 但这种想法和传统的函数拟合理论却相悖 。 最近微软的研究人员在NeurIPS上发表了一篇论文 , 用数学证明了大规模神经网络的必要性 , 甚至应该比预期的网络规模还大 。
当神经网络的研究方向逐渐转为超大规模预训练模型 , 研究人员的目标似乎变成了让网络拥有更大的参数量 , 更多的训练数据 , 更多样化的训练任务 。
当然 , 这个措施确实很有效 , 随着神经网络越来越大 , 模型了解和掌握的数据也更多 , 在部分特定任务上已经超越人类 。
文章图片
但在数学上 , 现代神经网络的规模实际上有些过于臃肿了 , 参数量通常远远超过了预测任务的需求 , 这种情况也被称为过度参数化(overparameterization) 。
NeurIPS上的一篇论文中最近就这一现象提出了一种全新的解释 。 他们认为这种比预期规模更大的神经网络是完全有必要的 , 只有这样才能避免某些基本问题 , 这篇论文中的发现也为这一问题提供一种更通用的见解 。
文章图片
论文地址:https://arxiv.org/abs/2105.12806
文章的第一作者SébastienBubeck在MSRRedmond管理机器学习基础研究组 , 主要在机器学习和理论计算机科学中跨越各种主题进行交叉研究 。
神经网络就该这么大
神经网络的一项常见任务是识别图像中的目标对象 。
文章图片
为了创建一个能够完成该任务的网络 , 研究人员首先为其提供许多图像和对应目标标签 , 对其进行训练以学习它们之间的相关性 。 之后 , 网络将正确识别它已经看到的图像中的目标 。
换句话说 , 训练过程使得神经网络记住了这些数据 。
并且 , 一旦网络记住了足够多的训练数据 , 它还能够以不同程度的准确度预测它从未见过的物体的标签 , 这个过程称为泛化 。
网络的大小决定了它能记忆多少东西 。
文章图片
可以用图形化的空间来理解 。 假设有两个数据点 , 把它们放在一个XY平面上 , 可以用一条由两个参数描述的线来连接这些点:线的斜率和它与纵轴相交时的高度 。 如果其他人也知道这条直线的参数 , 以及其中一个原始数据点的X坐标 , 他们可以通过观察这条直线(或使用参数)来计算出相应的Y坐标 。
也就是说 , 这条线已经记住了这两个数据点 , 神经网络做的就是差不多类似的事情 。
例如 , 图像是由成百上千的数值描述的 , 每个像素都有一个对应的值 。 可以把这个由许多自由值组成的集合在数学上相当于高维空间中一个点的坐标 , 坐标的数量也称为维度 。
传统的数学结论认为 , 要用一条曲线拟合n个数据点 , 你需要一个有n个参数的函数 。 例如 , 在直线的例子中 , 两个点是由一条有两个参数的曲线描述的 。
当神经网络在20世纪80年代首次作为一种新模型出现时 , 研究人员也这么认为 , 应该只需要n个参数来适应n个数据点 , 而跟数据的维度无关 。
德克萨斯大学奥斯汀分校的AlexDimakis表示 , 现在实际情况已经不是这样了 , 神经网络的参数数量远远超过了训练样本的数量 , 这说明了教科书上的内容必须得重写进行修正 。
- 蝉联16年全球第一,却在中国一败涂地,国人为何不买三星电视?
- Java|自由、简约、高效、安全!终于知道OriginOS Ocean为何受欢迎
- 科技股份有限公司|这栋大楼,为何成科创企业“加油站”?
- 飞利浦·斯塔克|互联网大厂的应届生为何工资这么高?
- 小雷|为何优惠资费套餐被赶到绝境?
- 新东方在线|俞敏洪为何难复制罗永浩?
- 中间件|搜集用户反馈:首批骁龙8机型,综合表现最好为何是它?
- 香港|俞敏洪为何难复制罗永浩?
- 智能健身|“明星”Peloton失利,智能健身赛道为何仍值得看好?
- 供应商|芯片供不应求下,供应商却不愿意转向12英寸晶圆制造,为何?