信息瓶颈提出者逝世,Hinton曾感叹:我要再听一万遍才能真正理解( 二 )


Tishby和Shwartz-Ziv还发现了一个很有趣的结果 , 深度学习以两个状态进行:一个短期「拟合」状态 , 期间网络学习标记输入数据 , 和一个时间长得多的长期「压缩」状态 , 通过测试其标记新测试数据的能力可以得出期间网络的泛化能力变得很强 。
信息瓶颈提出者逝世,Hinton曾感叹:我要再听一万遍才能真正理解
文章图片
当深度神经网络用随机梯度下降调整连接强度时 , 最初网络存储输入数据的比特数基本上保持常量或者增加很慢 , 期间连接强度被调整以编码输入模式 , 而网络标注数据的能力也在增长 。 一些专家将这个状态与记忆过程相比较 。
然后 , 学习转向了压缩状态 。 网络开始对输入数据进行筛选 , 追踪最突出的特征(与输出标签关联最强) 。 这是因为在每一次迭代随机梯度下降时 , 训练数据中或多或少的偶然关联都驱使网络做不同的事情 , 使其神经连接变得或强或弱 , 随机游走 。 这种随机化现象和压缩输入数据的系统性表征有相同的效果 。 举一个例子 , 有些狗的图像背景中可能会有房子 , 而另一些没有 。 当网络被这些照片训练的时候 , 由于其它照片的抵消作用 , 在某些照片中它会「遗忘」房子和狗的关联 。
Tishby和Shwartz-Ziv称 , 正是这种对细节的遗忘行为 , 使系统能生成一般概念 。 实际上 , 他们的实验揭示了 , 深度神经网络在压缩状态中提高泛化能力 , 从而更加擅长标记测试数据 。 (比如 , 被训练识别照片中的狗的深度神经网络 , 可以用包含或者不包含狗的照片进行测试 。 )
Tishby的发现在人工智能领域引发了热烈的讨论 。
深度学习先驱GeoffreyHinton在听了Tishby的报告之后给他发了邮件:「信息瓶颈极其有趣 , 我要再听一万遍才能真正理解它 , 当今能听到如此原创的想法非常难得 , 或许它就是解开谜题的那把钥匙 。 」
纽约大学心理学和数据科学助理教授BrendenLake认为 , Tishby的研究成果是「打开神经网络黑箱的重要一步」 。
谷歌研究员AlexAlemi说:「我认为信息瓶颈对未来的深度神经网络研究很重要 。 我甚至发明了新的近似方法 , 从而把信息瓶颈分析应用到大型深度神经网络中 。 」他又说:「信息瓶颈不仅可以作为理论工具用来理解神经网络的工作原理 , 同样也可以作为构建网络架构和新目标函数的工具 。 」
不过 , 这一理论也受到了一些挑战 , 比如AndrewM.Saxe等人发表在ICLR2018上的一篇批判性分析文章 。 简单来说 , 该论文发现Schwartz-Viz和Tishby论文中的结果无法很好地泛化到其他网络架构:训练期间的两个阶段依赖于激活函数的选择;无法证明压缩与泛化之间存在因果关系;当压缩确实发生时 , 它不一定依赖于来自随机梯度下降(SGD)的随机性 。
信息瓶颈提出者逝世,Hinton曾感叹:我要再听一万遍才能真正理解
文章图片
论文链接:https://openreview.net/pdf?id=ry_WPG-A-
据Tishby所讲 , 信息瓶颈是一个根本性的学习原则 , 不管是算法、家蝇、有意识的存在还是突发事件的物理计算 。 我们期待已久的答案即是「学习的关键恰恰是遗忘 。 」
除了信息瓶颈理论之外 , Tishby还于2019年12月与几位学者一起在顶级期刊《现代物理评论》上发表了一篇综述文章《Machinelearningandthephysicalsciences》 , 阐述了机器学习在物理学不同学科中的使用 。 对「物理+机器学习」感兴趣的同学可以去读一下 。
论文链接:https://arxiv.org/pdf/1903.10563.pdf
网友翻译版:https://blog.csdn.net/Wendy_WHY_123/article/details/104793247