今年的海德堡论坛,Raj Reddy、Sanjeev Arora、LeCun 与 Bengio 都讲了些什么?

作者|AI科技评论
编辑|陈彩娴
随着算力的日益提高和研究的不断积累 , 深度学习的发展已经走向应用 , 给各行各业带来了深刻的影响 。 如何从模型的设计和部署两方面让AI更加向善 , 这是构建深度学习工具和使用工具的人都需要考虑的问题 。
在这样的背景下 , 三位图灵奖获得者RajReddy、YoshuaBengio、YannLeCun和2011年ACM计算奖得主SanjeevArora , 以及多位学者 , 在今年九月举办的第九届海德堡获奖者论坛上带来了一场关于深度学习的应用与影响的讨论 。
今年的海德堡论坛,Raj Reddy、Sanjeev Arora、LeCun 与 Bengio 都讲了些什么?
文章图片
1深度学习的概念在变化YannLeCun:我觉得有一个很笼统的定义 , 即通过组装那些函数没有被完全定义的组块来组装一个机器 , 然后通过使用梯度下降最小化某种目标函数来解决这些函数 。
这个笼统的定义适用于很多情况 , 不仅仅是神经网络 , 并且可能还与上世纪50年代的单一处理(singleprocessing)和模式识别有共通之处 。
这些年来 , 深度学习的概念已经有所演变 , 也的确有人提议重新予以命名 。 可微分编程(differentiableprogramming)这个概念可以被泛化地理解为深度学习 , 其含义是编写一个程序 , 其中函数调用不被完全定义 , 而是在训练中加以调整 。
SanjeevArora:我以前研究算法和计算复杂性 , 大约在2011年 , 就在深度学习爆发的前一年 , 我转向了机器学习 。
LeCun刚才谈到的范式是 , 你有一个成本函数(costfucntion) , 并在过程中加以调整 , 这就是深度学习 。 问题是 , 成本函数并不能真正确定神经网络所做的事情 , 从相同的成本函数中 , 你也可以获得其他很多东西 。 所以这种范式并不总是受到认可 。 现在它在理论上已经被证明了 , 其实是算法的隐式偏差 。
目前我们还不清楚最底层发生了什么 , 所以我认为 , 如果仅使用成本函数来推理深度网络 , 可能是错误的 , 我们需要更多地了解黑箱内部所发生的事情 。 理想情况下 , 我们为此需要一个更广泛的关于训练算法的隐式偏见的理论 。 因为训练算法、架构和成本函数组合在一起 , 才带来了我们所看到的结果 。 我们并未掌握完整的理论 , 但这种理论是十分重要的 , 因为当前我们使用深度学习的主要方式是在无标签数据的情况下训练模型 , 然后泛化到其他任务 。 这种方式不适用于任何现有的理论框架 。 所以我们必须真正深入黑箱 。
ShakirMohamed:我们有两种理解机器学习的方式 。 一种是关于使用训练、算法、架构和成本函数;另一种是将机器学习理解为创建一个模型 。 模型是一种描述世界的方式 , 包括数据是如何生成的、我们如何观察数据、我们期望看到什么样的预测 , 这种方式我称之为「推理」(inference) 。
如何将数据转化为更新参数的方式?对于任何推理方法 , 研究统计或概率的人通常使用的一种方法是最大似然 。 对于我们所使用的任何一种模型结构 , 都可得到一种算法 。 深度学习的魔力在于基于组合性、递归性、架构深度、特定类型的损失函数、梯度下降算法 , 对特定类型的模型进行特定的选择 。
所以我认为 , 那些对概率感兴趣、做推理思考的人应该把分解作为其分析工具 , 即对于以下问题做分解:你正在建立的是什么模型?为什么要建立这个模型?将数据转化为见解的推理过程是什么?你实际使用的算法是什么?
对于所有这些问题中的每一个 , 你都可以将其视为一个对象 , 对其做分析、做理论研究或是实证检验 。 或者你也可以将其放在一起研究 。