多大获杰出论文奖,田渊栋、陆昱成获荣誉提名,ICML 2021奖项公布( 二 )


下图右为一个展开计算图 , 展示了如何使用图左的公式1和公式2来描述RNN和展开优化 。
多大获杰出论文奖,田渊栋、陆昱成获荣誉提名,ICML 2021奖项公布
文章图片
下表为PES方法与其他在展开计算图中学习参数的方法的比较:
多大获杰出论文奖,田渊栋、陆昱成获荣誉提名,ICML 2021奖项公布
文章图片
杰出论文荣誉提名奖
本次有四篇论文获得ICML2021杰出论文荣誉提名奖 , 分别由来自康奈尔大学、多伦多大学、谷歌大脑、FAIR、斯坦福大学、德国柏林自由大学、德国波茨坦大学等机构的研究者获得 。 值得一提的是 , 来自Facebook的科学家田渊栋担任一作的论文也收获此奖 。
论文1:OptimalComplexityinDecentralizedTraining
多大获杰出论文奖,田渊栋、陆昱成获荣誉提名,ICML 2021奖项公布
文章图片
论文地址:http://proceedings.mlr.press/v139/lu21a/lu21a.pdf论文作者:YuchengLu(陆昱成)、ChristopherDeSa机构:康奈尔大学去中心化是扩展并行机器学习系统的一种有效方法 。 本文给出了在随机非凸设置下进行复杂迭代的下界 , 该下界揭示了现有分散训练算法(例如D-PSGD)在已知收敛速度方面存在理论差距 。 该研究通过构造来证明这个下界是严格的 , 并且可实现 。 基于这一发现 , 该研究进一步提出了DeTAG , 一个实用的gossip风格去中心化算法 , 仅以对数间隔(logarithmgap)就能实现下界 。 该研究将DeTAG算法与其他去中心化算法在图像分类任务上进行了比较 , 结果表明DeTAG算法与基线算法相比具有更快的收敛速度 , 特别是在未经打乱的数据和稀疏网络中 。
该论文一作陆昱成本科就读于上海交通大学 , 现为康奈尔大学计算机科学系博士生 。 陆昱成的主要研究领域包括分布式优化和机器学习系统 。
论文2:OopsITookAGradient:ScalableSamplingforDiscreteDistributions
多大获杰出论文奖,田渊栋、陆昱成获荣誉提名,ICML 2021奖项公布
文章图片
论文地址:https://arxiv.org/pdf/2102.04509.pdf论文作者:WillGrathwohl、KevinSwersky、MiladHashemi、DavidDuvenaud、ChrisMaddison机构:多伦多大学、谷歌大脑研究者为带有离散变量的概率模型提供了一种通用且可扩展的近似采样策略 , 该策略使用似然函数相对于其自身离散输入的梯度以在Metropolis–Hastings采样器中进行更新 。 实验表明 , 该方法在很多困难的设置下均优于通用采样器 , 包括Ising模型、Potts模型以及受限玻尔兹曼机和因子隐马尔可夫模型 。 此外 , 研究者还展示了改进后的采样器可以在高维离散图像数据上训练基于能量的深度模型 。 这种方法优于变分自编码器和现有的基于能量的模型 。 最后 , 研究者给出了bounds , 表明他们的方法在提出局部更新的采样器中接近最优 。
论文3:Understandingself-supervisedlearningdynamicswithoutcontrastivepair
多大获杰出论文奖,田渊栋、陆昱成获荣誉提名,ICML 2021奖项公布
文章图片
论文地址:https://arxiv.org/pdf/2102.06810.pdf论文作者:YuandongTian(田渊栋)、XinleiChen、SuryaGanguli机构:FAIR、斯坦福大学对比自监督学习(SSL)的比较方法通过最小化同一数据点(正样本对)的两个增强视图之间的距离和最大化来自不同数据点的视图(负样本对)来学习表征 , 然而 , 最近的非对比SSL(如BYOL、SimSiam)在没有负样本对的情况下表现出了卓越的性能 , 使用额外的可学习预测器和停止梯度操作(stop-gradientoperation) , 模型性能会更佳 。 这样会出现一个基本的问题:为什么这些方法不能分解成简单的表征?
该研究通过一个简单的理论研究来回答这个问题 , 并提出一个新的方法DirectPred , 该方法直接根据输入的统计数据设置线性预测器 , 而不需要梯度训练 。 研究者在ImageNet上进行了比较 , 结果显示其结果与使用BatchNorm更复杂的两层非线性预测器性能相当 , 并且在300-epoch的训练中比线性预测器高出2.5%(在60个epoch中高出5%) 。 DirectPred研究是受到对简单线性网络中非对比SSL的非线性学习动力学理论研究的启发 。 该研究从概念上深入了解了非对比SSL方法是如何学习以及如何避免表征崩溃 , 此外还包括多重因素 , 例如预测网络、停止梯度、指数移动平均数、权重衰减等因素如何发挥作用 。