图灵奖得主杨立昆:我如何走上人工智能之路丨展卷( 六 )


我们在第二天碰了面 , 并一起在一家古斯古斯(来自北非马格里布地区的美食)餐厅吃了午饭 。 他向我解释了反向传播的原理 , 他知道我能听懂!辛顿说自己正在写一篇文章 , 其中引用了我的研究成果 , 我听后非常自豪 。 我俩很快意识到 , 我们的兴趣、方法以及思路都十分相似 。 辛顿邀请我参加1986年在卡内基·梅隆大学举办的关于联结主义模型的暑期培训班 , 我欣然接受 。 当时在认知科学界 , 研究者通常用“联结主义模型”这个术语来称呼神经网络这个未知领域 。
梯度反向传播的运用
20世纪80年代 , 梯度反向传播的普及使得训练多层神经网络成为可能 。 该网络由成千上万分层的神经元组成 , 其间的连接更是数不胜数 。 每层神经元都会合并、处理和转换前一层的信息 , 并将结果传递到下一层 , 直到在最后一层产生响应为止 。 这种层次体系结构赋予了多层网络能够存储惊人的潜能 , 我们会在接下来的深度学习部分进行进一步的讨论 。 不过 , 在1985年 , 多层网络的学习过程仍然很难实现 。
这一切在1986年发生了转变 。 特伦斯·谢诺夫斯基发表了一篇探讨NetTalk多层网络的技术报告 , NetTalk通过反向传播训练使机器学习阅读 。 该系统将英文文本转换成一组语音音素(基本语音)后传到语音合成器 , 从而实现“阅读”的功能 。 将文本语音转换成法语很简单 , 转换成英语却十分困难 。 在训练的初期 , 这个系统如同一个刚开始学习说话的婴儿 , 随着训练的不断积累 , 它的发音也越来越好 。 特伦斯·谢诺夫斯基到巴黎高等师范学院现场做了相关报告 , 震惊了现场听众和业界 。 随即 , 所有人都希望向我取经 , 因为多层网络突然变得十分流行 , 我也变成了这个领域的专家 。
在这之前的一年 , 我发现可以用拉格朗日形式从数学的角度反向传播 , 这类形式化是传统机械、量子机械和“最优控制”理论的基础 。 我还注意到在20世纪60年代 , 有一位最优控制的理论家提出了一个类似反向传播的方法 , 这个方法被命名为“凯利-布赖森(Kelly-Bryson)算法” , 也被称为“伴随状态法” 。 在1969年出版的由亚瑟·布赖森(ArthurBryson)和何毓琦(Yu-ChiHo)合著的《应用最优控制》(AppliedOptimalControl)一书中对其进行了详细讲述 。
这些科学家从没想过将这个方法应用到机器学习或者神经网络领域 , 他们更感兴趣的是系统的规划和控制 。 比如 , 如何控制火箭 , 使其到达一个精准的轨道并且和另外一个航空器对接 , 且同时要尽可能减少能源消耗 。 而从数学的角度来说 , 这个问题和调整多层神经网络节点的权重问题非常相似 , 这样最后一层的输出结果就会符合预期 。
1986年7月 , 应辛顿之邀 , 我在匹兹堡的卡内基·梅隆大学参加了为期两周的关于联结主义模型的暑期课程(如下图) 。 这次美国之行我其实是有顾虑的 , 因为当时我的妻子正在孕中 , 我们的第一个孩子将在我回法国4周后降生 。
图灵奖得主杨立昆:我如何走上人工智能之路丨展卷
文章图片
1986年有关联结主义模型的暑期课程班学员
照片中标出的是斯坦尼斯拉斯·德阿纳(SD)、迈克尔·乔丹(MJ)、杰伊·麦克莱兰德(JMcC)、杰弗里·辛顿(GH)、特伦斯·谢诺夫斯基(TS)和我(YLC) 。 除此之外 , 照片上的许多参与者日后都成了机器学习、人工智能和认知科学领域的重要人物:安迪·巴尔托、戴夫·图尔茨基、格里·泰绍罗、乔丹·波拉克、吉姆·亨德勒、迈克尔·莫泽尔、理查德·德宾等组织者 。