信息瓶颈提出者逝世,Hinton曾感叹:我要再听一万遍才能真正理解

机器之心报道
机器之心编辑部
信息瓶颈极其有趣 , 我要再听一万遍才能真正理解它 , 当今能听到如此原创的想法非常难得 , 或许它就是解开谜题的那把钥匙 。 ——GeoffreyHinton
刚刚 , 耶路撒冷希伯来大学发布了一则讣告:该校计算机科学与工程学院教授、信息瓶颈方法提出者之一NaftaliTishby逝世 , 享年69岁 。
信息瓶颈提出者逝世,Hinton曾感叹:我要再听一万遍才能真正理解
文章图片
NaftaliTishby生于1952年 , 1985年在希伯来大学获得理论物理学博士学位 , 之后曾在MIT、贝尔实验室、宾夕法尼亚大学、IBM等机构做研究工作 。 去世之前 , Tishby在耶路撒冷希伯来大学担任计算机科学教授、EdmondandLilySafra脑科学中心(ELSC)RuthandStanFlinkman脑科学研究主席 , 是以色列机器学习和计算神经科学研究领域的领导者之一 。
1999年 , NaftaliTishby和FernandoPereira、WilliamBialek一起提出了信息论中的重要方法——信息瓶颈 。
信息瓶颈提出者逝世,Hinton曾感叹:我要再听一万遍才能真正理解
文章图片
论文链接:https://www.cs.huji.ac.il/labs/learning/Papers/allerton.pdf
该方法的目的是:对于一个随机变量 , 假设已知其与观察变量Y之间的联合概率分布p(X,Y) 。 此时 , 当需要summarize(如聚类)时 , 可以通过信息瓶颈方法来分析如何最优化地平衡准确度与复杂度(数据压缩) 。 该方法的应用包括分布聚类与降维等 。
最重要的是 , 这一理论有望最终打开深度学习的黑箱 , 以及解释人脑的工作原理 。
信息瓶颈提出者逝世,Hinton曾感叹:我要再听一万遍才能真正理解】2015年 , Tishby及其学生NogaZaslavsky发表了一篇论文 , 假设深度学习是一个信息瓶颈程序 , 尽可能地压缩数据噪声 , 保留数据想表达的信息 。 也就是说 , 神经网络就像把信息挤进瓶颈一样 , 只留下与一般概念最为相关的特征 , 去掉大量无关的噪音数据 。
信息瓶颈提出者逝世,Hinton曾感叹:我要再听一万遍才能真正理解
文章图片
论文链接:https://arxiv.org/pdf/1503.02406.pdf
2017年 , Tishby和他的另一个学生RavidShwartz-Ziv联合进行了一场引入注目的实验 , 揭示了发生在深度学习之中的挤压过程 。
信息瓶颈提出者逝世,Hinton曾感叹:我要再听一万遍才能真正理解
文章图片
论文链接:https://arxiv.org/pdf/1703.00810.pdf
在一个案例中 , 他们训练小型网络使其将数据标记为1或0(比如「狗」或「非狗」) , 网络一共有282个神经连接并随机初始化连接强度 , 然后他们使用3000个样本的输入数据集追踪网络究竟在做什么 。
大多数深度学习网络训练过程中用来响应数据输入和调整神经连接强度的基本算法都是「随机梯度下降」:每当输入训练数据到网络中 , 一连串的激活行为将接连每一层的神经元 。 当信号到达最顶层时 , 最后的激活模式将对应确定的标签 , 1或0 , 「狗」或「非狗」 。 激活模式和正确的模式之间的不同将会「反向传播」回网络的层中 , 即 , 正如老师批改作业一样 , 这个算法将强化或者弱化每一个连接的强度以使网络能输出更产生的输出信号 。 经过训练之后 , 训练数据的一般模式将体现在神经连接的强度中 , 网络将变成识别数据的专家 。
在他们的实验中 , Tishby和Shwartz-Ziv追踪了深度神经网络的每一层保留了多少输入数据的信息 , 以及每一层保留了多少输出标签的信息 。 他们发现 , 网络逐层收敛到了信息瓶颈的理论范围(Tishby导出的理论极限) 。 Pereira和Bialek最初的论文中展示了系统提取相关信息的最佳结果 。 在信息瓶颈的理论范围内 , 网络将尽可能地压缩输入 , 而无需牺牲精确预测标签的能力 。