Hinton 最新研究:神经网络的未来是前向-前向算法

Hinton 最新研究:神经网络的未来是前向-前向算法
文章图片
作者|李梅、黄楠
编辑|陈彩娴
过去十年 , 深度学习取得了惊人的胜利 , 用大量参数和数据做随机梯度下降的方法已经被证明是有效的 。 而梯度下降使用的通常是反向传播算法 , 所以一直以来 , 大脑是否遵循反向传播、是否有其它方式获得调整连接权重所需的梯度等问题都备受关注 。
图灵奖得主、深度学习先驱GeoffreyHinton作为反向传播的提出者之一 , 在近年来已经多次提出 , 反向传播并不能解释大脑的运作方式 。 相反 , 他正在提出一种新的神经网络学习方法——前向-前向算法(Forward?ForwardAlgorithm , FF) 。
在最近的NeurIPS2022大会上 , Hinton发表了题目为《TheForward-ForwardAlgorithmforTrainingDeepNeuralNetworks》的特邀演讲 , 论述了前向算法相比于反向算法的优越性 。 论文的初稿《TheForward-ForwardAlgorithm:SomePreliminaryInvestigations》已经放在了其多伦多大学的主页上:
Hinton 最新研究:神经网络的未来是前向-前向算法
文章图片
论文地址:https://www.cs.toronto.edu/~hinton/FFA13.pdf与反向传播算法使用一个前向传递+一个反向传递不同 , FF算法包含两个前向传递 , 其中一个使用正(即真实)数据 , 另一个使用网络本身生成的负数据 。
Hinton认为 , FF算法的优点在于:它能更好地解释大脑的皮层学习 , 并且能以极低的功耗模拟硬件 。
Hinton提倡应放弃软硬件分离的计算机形态 , 未来的计算机应被设计为“非永生的”(mortal) , 从而大大节省计算资源 , 而FF算法正是能在这种硬件中高效运行的最佳学习方法 。
这或许正是未来解决万亿参数级别的大模型算力掣肘的一个理想途径 。
1FF算法比反向算法
更能解释大脑、更节能
在FF算法中 , 每一层都有自己的目标函数 , 即对正数据具有高优度 , 对负数据具有低优度 。 层中活动平方和可用作优度 , 此外还包括了诸多其他的可能性 , 例如减去活动平方和等 。
如果可以及时分离正负传递 , 则负传递可以离线完成 , 正传递的学习也会更加简单 , 并且允许视频通过网络进行传输 , 而无需存储活动或终止传播导数 。
Hinton认为 , FF算法在两个方面优于反向传播:
一 , FF是解释大脑皮层学习的更优模型;
二 , FF更加低耗能 , 它使用极低功耗模拟硬件而不必求助于强化学习 。
没有切实证据可以证明 , 皮层传播错误导数或存储神经活动是用于后续的反向传播 。 从一个皮层区域到视觉通路中较早的区域自上而下的连接 , 并不能反映出在视觉系统中使用反向传播时所预期的自下而上连接 。 相反 , 它们形成了循环 , 其中神经活动经过两个区域、大约六个皮层 , 然后回到它开始的地方 。
作为学习序列的方式之一 , 通过时间的反向传播可信度并不高 。 为了在不频繁暂停的情况下处理感觉输入流 , 大脑需要通过感觉来处理的不同阶段传输数据 , 并且还需要一个可以即时学习的过程 。 管道后期表征可能会在后续时间里提供影响管道早期阶段表征的自上而下的信息 , 但感知系统需要实时进行推理和学习 , 而非停止进行反向传播 。
这当中 , 反向传播的另一个严重限制在于 , 它需要完全了解前向传播执行的计算才能推出正确的导数 。 如果我们在前向传播中插入一个黑盒 , 除非学习黑盒的可微分模型 , 否则反向传播无法执行 。
而黑盒不会对FF算法的学习过程造成影响 , 因为不需要通过它进行反向传播 。