利用宇宙的能力来处理数据！「物理网络」远胜深度神经网络( 二 ) 轮到物理学家来揭示神经网络

图注：康奈尔大学团队成员PeterMcMahon和TatsuhiroOnodera在为完成学习任务的各种物理系统编写程序。图源：DaveBurbank风洞能模拟空气动力学，是一种功能专一的机器。像McMahon这样的研究人员正在研究一种可以学习做任何事情的设备——一种可以通过试错来调整自身行为从而获得任何新能力的系统，比如对手写数字进行分类，或者区分一个元音和另一个元音等能力。最新研究表明，像光波、超导体网络和电子分支流这样的物理系统都可以进行学习。瑞士苏黎世联邦理工学院的数学家BenjaminScellier说，他帮助设计了一种新的物理学习算法， “我们不仅在重塑硬件，还重塑了整个计算范式” 。 1学习思考学习是一个极为独特的过程，在十年以前，大脑是唯一能做到学习的系统。正是大脑的结构在一定程度上启发了计算机科学家设计深度神经网络这个目前最流行的人工学习模型。深度神经网络是一种通过实践来学习的计算机程序。深度神经网络可以被认为是一个网格：用来存储值的节点层被称为神经元，神经元通过线连接到相邻层的神经元，这种线也叫“突触” 。最初，这些突触只是被称为“权重”的随机数。想让网络读取4 ，可以让第一层神经元表示4的原始图像，可以将每个像素的阴影作为一个值存储在相应的神经元中。然后网络进行“思考” ，一层一层地移动，用神经元值乘以突触权值来填充下一层神经元。最后一层中值最大的神经元就是神经网络的答案。例如，如果这是第二个神经元，网络猜测自己看到了2 。为了教网络做出更聪明的猜测，学习算法会反向工作。在每次尝试之后，它会计算出猜测和正确答案之间的差值(在我们的例子中，这个差值将由最后一层的第四个神经元的高值和其他地方的低值表示) 。然后，算法通过网络一层一层地往回走，计算如何调整权值，以使最终神经元的值根据需要上升或下降。这个过程被称为反向传播，是深度学习的核心。通过重复多次猜测和调整，反向传播将权重引导到一组数字，这些数字将通过一幅图像发起的级联乘法输出结果。
文章图片
图源：Quanta杂志MerrillSherman但与大脑的思考相比，人工神经网络中的数字化学习看起来效率非常低。在每天摄入不到2000卡路里热量的情况下，一个人类儿童在几年内就能学会说话、阅读、玩游戏以及更多的东西。在如此有限的能量条件下，能够流畅对话的GPT-3神经网络可能需要一千年才能学会聊天。从物理学家的角度来看，一个大型数字神经网络只是试图去做过多的数学运算。如今最大的神经网络必须记录和操纵超过5000亿个数字。这个惊人的数字出自下图中的论文“Pathways语言模型(PaLM)：扩展到5400亿个参数以实现突破性性能（PathwaysLanguageModel(PaLM):Scalingto540BillionParametersforBreakthroughPerformance）”：
文章图片
论文链接：https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html与此同时，宇宙不断出现的任务远远超出了计算机微薄的计算能力的极限。一个房间里可能有数万亿的空气分子在四处弹跳。对于一个成熟的碰撞模拟来说，这是计算机无法追踪的移动对象的数量，但空气本身却能轻松决定自己每时每刻的行为。我们目前的挑战是建立一个能够自然完成人工智能所需两个过程的物理系统，这两个过程分别是——对图像进行分类的“思考” ，以及正确分类这类图像所需的“学习” 。一个掌握了这两项任务的系统才是真正利用了宇宙的数学能力，而不仅仅是做数学计算。 “我们从来没有计算过3.532乘以1.567之类的， ”Scellier说。 “系统会计算，不过是通过遵循物理定律的方式隐含地计算。 ”2思考部分McMahon和合作学者们已经在这个谜题的“思考”部分取得了进展。在新冠疫情发生前的几个月， McMahon在康奈尔大学建立了实验室，他仔细思考了一个奇怪的发现。多年来，表现最出色的图像识别神经网络已经变得越来越深度。也就是说，有更多层的网络能够更好地接收一堆像素并给出标签，如“狮子狗” 。这一趋势启发数学家们研究神经网络实现的转换（从像素到“狮子狗”），在2017年几个小组在论文“任意深度残差神经网络的可逆结构（ReversibleArchitecturesforArbitrarilyDeepResidualNeuralNetworks）”中提出，神经网络的行为是一个平滑数学函数的近似版本。