2021图机器学习有哪些新突破？麦吉尔大学博士后梳理展望领域趋势( 三 ) 选自Medium作者：MichaelGalkin机器

文章图片
这个蓝图解释了神经网络如何在嵌入空间中模仿和授权一般离散算法的执行过程。在编码-处理-解码方式中，抽象输入（从自然输入获得）由神经网络（处理器）进行处理，其输出被解码为抽象输出，然后可以映射到更自然的任务特定输出。
例如，如果抽象输入和输出可以表示为图形，那么GNN可以即可成为处理器网络。离散算法的一个常见的预处理步骤是将我们对这个问题的任何所知内容转化为像「距离」或「边缘容量」这样的标量，并在这些标量上运行算法。相反，向量表征和神经执行可以轻松启用高维输入而不是简单的标量，并附加反向传播以优化处理器。
目前，该蓝图已经得到越来越多的采用， NeurIPS'21上出现了一些很酷的作品。 Xhonneuxetal研究了迁移学习是否可用于将学习到的神经执行器泛化到新任务；Deacetal发现了强化学习中算法推理和隐式规划之间的联系。相信在2022年还会出现更多有关研究。
子图GNN：超越1-WL
如果2020年是首次尝试离开GNN表现力的1-WL-landia的一年，那么2021年则是超越1WL-landia的一年。这些联系已被证明很有用，我们现在拥有一些强大且更具表现力的GNN架构，这些架构将消息传递扩展到更高阶的结构，如单纯复形（例如Bodnar、Frasca、Wang等人的MPSN网络、胞腔复形（Bodnar、Frasca等人的CWNetworks））或子图。
可扩展性和深度GNN
如果你在使用2-4层GNN时羡慕深度ResNet或100多层的大型Transformer ，那么2021年有两篇论文为我们带来了福音，一篇是关于随意训练100-1000层GNN的论文，另一篇是关于几乎恒定大小的邻域采样。
Li等人提出了两种新机制，可以在训练极深的超参数化网络时减少GPU内存消耗：将L层网络的O(L)降低到O(1) 。作者展示了如何在CV或高效Transformer架构（例如Reformer）中使用可逆层，并在层之间共享权重（权重绑定），以训练多达1000层的GNN 。下图展示了根据GPU需求进行的层数扩展。

文章图片
图源：Li等人的论文《TrainingGraphNeuralNetworkswith1000Layers》
Godwin等人提出了一种利用循环学习深度GNN的方法——在块（Block）中组织消息传递步骤，每个块可有M个消息传递层。然后循环应用N个块，这意味着有多个块共享权重。如果有10个消息传递层和10个块，你将得到一个100层的GNN 。其中一个重要的组成部分是NoisyNodes正则化技术，它会干扰节点和边的特征并计算额外的去噪损失。该架构能更好地适用于分子任务，研究团队还在QM9和OpenCatalyst20数据集上进行了评估。

文章图片
最后，如果想将任意GNN扩展成非常大的图，那么只有一个选择——采样子图。通常，对k-hop子图进行采样会导致指数级内存成本和计算图大小
PyG的作者MatthiasFey等人创建了一个在恒定时间内利用历史嵌入和图聚类扩展GNN的框架GNNAutoScale 。该方法在预处理期间将图划分为B个集群（小批量），以便最小化集群之间的连通性；然后在这些集群上运行消息传递与全批量设置一样好，并显著降低了内存要求（小了约50倍），这使得在商品级GPU上安装深度GNN和大型图成为可能。

文章图片
知识图谱（KG）
在2021年之前，模型根据归纳偏置、架构和训练机制被明确分为转导和归纳两类。换句话说，转导模型没有机会适应未见过的实体，而归纳模型在中大型图上训练成本太高。 2021年有两种新架构在转导和归纳环境中均可使用。这两种架构不需要节点特征，可以在归纳模式中以与转导模式相同的方式进行训练，并可扩展到现实世界的KG大小。