Hinton 最新研究:神经网络的未来是前向-前向算法( 七 )


SimCLR这类方法的一个主要弱点是大量计算用于推导两个图像裁剪的表示 , 但目标函数仅对表示提供适度的约束 , 这限制了有关域的信息的速率可以注入权重 。 为了使剪裁的表示更接近其正确的配对而非替代品 , 只需要20比特信息 。 FF的问题更严重 , 因为它只需要1比特来区分正例和负例 。
解决这种约束贫乏的方法是将每一层分成许多小块 , 并强制每个块分别使用其预归一化活动向量的长度来决定正例和负例 。 然后 , 满足约束所需的信息随块数线性缩放 , 这比在类似SimCLR的方法中使用更大的对比度集实现的对数缩放要好得多 。
堆栈对比学习存在的问题学习多层表示的一种无监督方法 , 是首先学习一个隐藏层 , 该隐藏层捕获数据中的某些结构 , 然后将该层中的活动向量视为数据、并再次应用相同的无监督学习算法 。 这就是使用受限玻尔兹曼机(RBM)或堆栈自编码器(stackedautoencoder)学习多层表示的方式 。
但它有一个致命的缺陷 。 假设我们通过随机权重矩阵映射一些随机噪声图像 。 生成的活动向量将具有由权重矩阵创建的相关结构 , 与数据无关 。 当将无监督学习应用于这些活动向量时 , 它会发现其中的一些结构 , 但这不会告诉系统任何关于外部世界的信息 。
最初的玻尔兹曼机器学习算法旨在通过对比由两种不同外部边界条件引起的统计数据来避免此缺陷 。 这抵消了所有只是网络其他部分的结果的结构 。 在对比正负数据时 , 无需限制布线 , 也不要求剪裁之间具有随机空间关系以防止网络作弊 。 这样便很容易获得大量相互连接的神经元组 , 每个神经元组都有自己的目标即区分正数据和负数据 。
4在未来非永生计算机上
FF是最佳学习算法MortalComputation是Hinton近期的重要观点之一(注:该术语尚未有公认的中文翻译 , 暂译为“非永生计算”) 。
Hinton 最新研究:神经网络的未来是前向-前向算法
文章图片
他指出 , 目前的通用数字计算机被设计为忠实地遵循指令 , 人们认为让通用计算机执行特定任务的唯一方法 , 就是编写一个程序 , 以极其详细的方式准确指定要做的事 。
主流的想法仍然是坚持软件应该与硬件分离 , 以便相同的程序或相同的权重集可以在硬件的不同物理副本上运行 。 这就会使得程序或权重中包含的知识变得“不朽”:即硬件死亡时 , 知识不会随之消亡 。
但这已经不再成立 , 研究界还未充分理解深度学习对计算机构建方式的长期影响 。
软件与硬件的分离是计算机科学的基础之一 , 它的确带来了很多好处 , 如可以研究程序的特性而不必关心电气工程 , 而且它使得编写一次程序、并将其复制到数百万台计算机成为可能 。 但Hinton指出:
如果我们愿意放弃这种“不朽” , 就可以大大节省执行计算所需的能量以及制造执行计算的硬件的成本 。
这样一来 , 执行相同任务的不同硬件实例在连接性和非线性上就有可能发生较大的变化 , 并从学习过程中发现有效利用每个特定实例的未知属性的参数值硬件 。 这些参数值仅对特定的硬件实例有用 , 因此它们执行的计算是并非不朽 , 而是会随硬件一起消亡 。
将参数值复制到工作方式不同的不同硬件本身的确没有任何意义 , 但我们可以用一种更生物学的方法可以将一个硬件学到的东西转移到另一个硬件 。 对于图像中对象分类这样的任务 , 我们真正感兴趣的是将像素强度与类标签相关联的函数 , 而不是在特定硬件中实现该函数的参数值 。
函数本身可以通过使用蒸馏转移到不同的硬件:训练新硬件不仅给出与旧硬件相同的答案 , 而且输出相同的概率对于不正确的答案 。 这些概率更丰富地表明了旧模型如何概括 , 而不仅仅是它认为最有可能的标签 。 因此 , 通过训练新模型来匹配错误答案的概率 , 我们正在训练它以与旧模型相同的方式进行概括 。 这样的神经网络训练实际上优化了泛化性 , 这个例子十分罕见 。