图灵奖得主杨立昆:我如何走上人工智能之路丨展卷( 六 )
我们在第二天碰了面 , 并一起在一家古斯古斯(来自北非马格里布地区的美食)餐厅吃了午饭 。 他向我解释了反向传播的原理 , 他知道我能听懂!辛顿说自己正在写一篇文章 , 其中引用了我的研究成果 , 我听后非常自豪 。 我俩很快意识到 , 我们的兴趣、方法以及思路都十分相似 。 辛顿邀请我参加1986年在卡内基·梅隆大学举办的关于联结主义模型的暑期培训班 , 我欣然接受 。 当时在认知科学界 , 研究者通常用“联结主义模型”这个术语来称呼神经网络这个未知领域 。
梯度反向传播的运用
20世纪80年代 , 梯度反向传播的普及使得训练多层神经网络成为可能 。 该网络由成千上万分层的神经元组成 , 其间的连接更是数不胜数 。 每层神经元都会合并、处理和转换前一层的信息 , 并将结果传递到下一层 , 直到在最后一层产生响应为止 。 这种层次体系结构赋予了多层网络能够存储惊人的潜能 , 我们会在接下来的深度学习部分进行进一步的讨论 。 不过 , 在1985年 , 多层网络的学习过程仍然很难实现 。
这一切在1986年发生了转变 。 特伦斯·谢诺夫斯基发表了一篇探讨NetTalk多层网络的技术报告 , NetTalk通过反向传播训练使机器学习阅读 。 该系统将英文文本转换成一组语音音素(基本语音)后传到语音合成器 , 从而实现“阅读”的功能 。 将文本语音转换成法语很简单 , 转换成英语却十分困难 。 在训练的初期 , 这个系统如同一个刚开始学习说话的婴儿 , 随着训练的不断积累 , 它的发音也越来越好 。 特伦斯·谢诺夫斯基到巴黎高等师范学院现场做了相关报告 , 震惊了现场听众和业界 。 随即 , 所有人都希望向我取经 , 因为多层网络突然变得十分流行 , 我也变成了这个领域的专家 。
在这之前的一年 , 我发现可以用拉格朗日形式从数学的角度反向传播 , 这类形式化是传统机械、量子机械和“最优控制”理论的基础 。 我还注意到在20世纪60年代 , 有一位最优控制的理论家提出了一个类似反向传播的方法 , 这个方法被命名为“凯利-布赖森(Kelly-Bryson)算法” , 也被称为“伴随状态法” 。 在1969年出版的由亚瑟·布赖森(ArthurBryson)和何毓琦(Yu-ChiHo)合著的《应用最优控制》(AppliedOptimalControl)一书中对其进行了详细讲述 。
这些科学家从没想过将这个方法应用到机器学习或者神经网络领域 , 他们更感兴趣的是系统的规划和控制 。 比如 , 如何控制火箭 , 使其到达一个精准的轨道并且和另外一个航空器对接 , 且同时要尽可能减少能源消耗 。 而从数学的角度来说 , 这个问题和调整多层神经网络节点的权重问题非常相似 , 这样最后一层的输出结果就会符合预期 。
1986年7月 , 应辛顿之邀 , 我在匹兹堡的卡内基·梅隆大学参加了为期两周的关于联结主义模型的暑期课程(如下图) 。 这次美国之行我其实是有顾虑的 , 因为当时我的妻子正在孕中 , 我们的第一个孩子将在我回法国4周后降生 。
文章图片
1986年有关联结主义模型的暑期课程班学员
照片中标出的是斯坦尼斯拉斯·德阿纳(SD)、迈克尔·乔丹(MJ)、杰伊·麦克莱兰德(JMcC)、杰弗里·辛顿(GH)、特伦斯·谢诺夫斯基(TS)和我(YLC) 。 除此之外 , 照片上的许多参与者日后都成了机器学习、人工智能和认知科学领域的重要人物:安迪·巴尔托、戴夫·图尔茨基、格里·泰绍罗、乔丹·波拉克、吉姆·亨德勒、迈克尔·莫泽尔、理查德·德宾等组织者 。
- 周迅饰演屠呦呦!作为我国唯一科学诺奖得主,周迅驾驭得了吗
- 有奖|咕咕咕,我们给你准备了一份打败“拖延症”的礼物
- 年终奖|各科技企业年终奖曝光
- 本文转自:广州日报近日|交通一票式出行关键技术及应用获广东省智能交通科学技术奖一等奖
- ColorOS|TCL电视年终回顾:多型号斩获年度大奖
- 传统制造再添“翼”临平又一企业斩获中国专利优秀奖
- 1949年诺贝尔医学奖,为何成了30万人的噩梦?灵魂切割令人毛骨悚然
- 伊隆·马斯克|斩获多个存储类奖项!铠侠(原东芝存储器)彰显老牌厂商新实力
- 本文转自:人民邮电报本报讯 1月16日|全球IPv6论坛授予中国工程院院士邬贺铨“IPv6终身成就奖”
- 沙特|55天徒步跨越1600公里!沙特一观众获国际足联最佳球迷奖提名