图灵奖得主杨立昆：我如何走上人工智能之路丨展卷( 六 ) 2018年图灵奖得主、法国人工智

我们在第二天碰了面，并一起在一家古斯古斯（来自北非马格里布地区的美食）餐厅吃了午饭。他向我解释了反向传播的原理，他知道我能听懂！辛顿说自己正在写一篇文章，其中引用了我的研究成果，我听后非常自豪。我俩很快意识到，我们的兴趣、方法以及思路都十分相似。辛顿邀请我参加1986年在卡内基·梅隆大学举办的关于联结主义模型的暑期培训班，我欣然接受。当时在认知科学界，研究者通常用“联结主义模型”这个术语来称呼神经网络这个未知领域。
梯度反向传播的运用
20世纪80年代，梯度反向传播的普及使得训练多层神经网络成为可能。该网络由成千上万分层的神经元组成，其间的连接更是数不胜数。每层神经元都会合并、处理和转换前一层的信息，并将结果传递到下一层，直到在最后一层产生响应为止。这种层次体系结构赋予了多层网络能够存储惊人的潜能，我们会在接下来的深度学习部分进行进一步的讨论。不过，在1985年，多层网络的学习过程仍然很难实现。
这一切在1986年发生了转变。特伦斯·谢诺夫斯基发表了一篇探讨NetTalk多层网络的技术报告， NetTalk通过反向传播训练使机器学习阅读。该系统将英文文本转换成一组语音音素（基本语音）后传到语音合成器，从而实现“阅读”的功能。将文本语音转换成法语很简单，转换成英语却十分困难。在训练的初期，这个系统如同一个刚开始学习说话的婴儿，随着训练的不断积累，它的发音也越来越好。特伦斯·谢诺夫斯基到巴黎高等师范学院现场做了相关报告，震惊了现场听众和业界。随即，所有人都希望向我取经，因为多层网络突然变得十分流行，我也变成了这个领域的专家。
在这之前的一年，我发现可以用拉格朗日形式从数学的角度反向传播，这类形式化是传统机械、量子机械和“最优控制”理论的基础。我还注意到在20世纪60年代，有一位最优控制的理论家提出了一个类似反向传播的方法，这个方法被命名为“凯利-布赖森（Kelly-Bryson）算法” ，也被称为“伴随状态法” 。在1969年出版的由亚瑟·布赖森（ArthurBryson）和何毓琦（Yu-ChiHo）合著的《应用最优控制》（AppliedOptimalControl）一书中对其进行了详细讲述。
这些科学家从没想过将这个方法应用到机器学习或者神经网络领域，他们更感兴趣的是系统的规划和控制。比如，如何控制火箭，使其到达一个精准的轨道并且和另外一个航空器对接，且同时要尽可能减少能源消耗。而从数学的角度来说，这个问题和调整多层神经网络节点的权重问题非常相似，这样最后一层的输出结果就会符合预期。
1986年7月，应辛顿之邀，我在匹兹堡的卡内基·梅隆大学参加了为期两周的关于联结主义模型的暑期课程（如下图）。这次美国之行我其实是有顾虑的，因为当时我的妻子正在孕中，我们的第一个孩子将在我回法国4周后降生。

文章图片
1986年有关联结主义模型的暑期课程班学员
照片中标出的是斯坦尼斯拉斯·德阿纳（SD）、迈克尔·乔丹（MJ）、杰伊·麦克莱兰德（JMcC）、杰弗里·辛顿（GH）、特伦斯·谢诺夫斯基（TS）和我（YLC）。除此之外，照片上的许多参与者日后都成了机器学习、人工智能和认知科学领域的重要人物：安迪·巴尔托、戴夫·图尔茨基、格里·泰绍罗、乔丹·波拉克、吉姆·亨德勒、迈克尔·莫泽尔、理查德·德宾等组织者。