2021图机器学习有哪些新突破？麦吉尔大学博士后梳理展望领域趋势( 四 ) 选自Medium作者：MichaelGalkin机器

一种是Zhu等人的神经Bellman-Ford网络，其中将经典的Bellman-Ford推广到了更高级别的框架，并展示了如何通过使用特定运算符实例化框架来获得其他经典方法（如Katz指标、PPR、最宽路径等）。更重要的是，该研究表明泛化的Bellman-Ford本质上是一种关系GNN架构。 NBFNet不学习实体嵌入，这使得模型通过泛化到未见过的图而获得了归纳性。该模型在关系图和非关系图上的链接预测任务上都表现出色。在KG的应用上， NBFNet给FB15k-237和WN18RR两个数据集带来了自2019年以来最大的性能提升，同时参数减少了100倍。

文章图片
另一种是Galkin等人受NLP中标记化算法启发的新方法。在KG上应用时， NodePiece将每个节点表征为一组top-k个最近的锚节点和节点周围的m个唯一关系类型。锚点和关系类型被编码为可用于任何下游任务（分类、链接预测、关系预测等）和任何归纳/转导设置的节点表征。 NodePiece特征可以直接被RotatE等非参数解码器使用，也可以发送到GNN进行消息传递。该模型在归纳链接预测数据集上的性能可与NBFNet媲美，并在大型图上表现出较高的参数效率——OGBWikiKG2上的NodePiece模型所需参数仅为浅的仅转导模型的一百分之一。

文章图片
利用GNN做很酷的研究
Huang,He等人在ICLR’21上展示了Correct&Smooth—一个通过标签传播改进模型预测的简单程序。仅与MLP配对，该方法在不使用任何GNN且参数少得多的情况下以最高分冲击OGB排行榜！今天，几乎所有OGB节点分类赛道中的顶级模型都使用Correct&Smooth来压缩更多的点。

文章图片
图源：Huang,He等人
Knyazev等人在前向传递中预测各种神经网络架构参数的工作震惊了ML社区。他们没有采用随机初始化模型，而是采用预测好的参数，这样会优于随机模型。
参数预测实际上是一个图学习任务——任何神经网络架构（ResNet、ViT、Transformers）都可以表示为一个计算图，其中节点是具有可学习参数的模块，节点特征是那些参数，网络有一堆节点类型（比如，线性层、卷积层等，作者使用了大约15种节点类型）。参数预测则是一个节点回归任务。计算图使用GatedGNN进行编码，并将其新表示发送到解码器模块。为了训练，作者收集了一个包含1M个架构（图）的新数据集。该方法适用于任何神经网络架构，甚至适用于其他GNN 。

文章图片
预测未知模型的参数的pipeline 。图源：Knyazev等人
DeepMind和谷歌通过将道路网络建模为超分段图并在其上应用GNN ，极大地提高了谷歌地图中ETA的质量。在Pinion等人的论文中，该任务被定义为节点级和图级回归。除此之外，作者还描述了许多需要解决的工程挑战，以便在谷歌地图规模上部署系统。应用GNN解决数百万用户面临的实际问题。
论文地址：https://arxiv.org/pdf/2108.11482.pdf

文章图片
图源:Pinion等人
一些资料总结
文章最后，作者介绍了一些相关资料，包括数据集、课程和书籍、一些实用的库等内容。
如果你不习惯使用Cora、Citeseer、Pubmed数据集，可以考虑以下：
OGB数据集包含3个非常大的图，可分别用于节点分类（240M节点）、链接预测（整个Wikidata ， 90M节点）和图回归（4M分子）任务。在KDDCup中，大多数获胜团队使用了10-20个模型组合；由MetaAI发起的公开催化剂挑战赛（OpenCatalystNeurIPS’21Challenge），提供了一项大型分子任务——给出具有原子位置的初始结构，预测其松弛状态能。这个数据集非常庞大，需要大量的计算，但组织者暗示将发布一个更小的版本，这将对GPU预算有限的小型实验室更友好。事实上， Graphormer在OGBLSC和OpenCatalyst'21中都获得了第一名，并在2021年获得了GraphML的大满贯；GLB2021带来了一组新的数据集，包括Lim等人提出的non-homophilousgraphs ， Tsitsulin等人提出的graphsimulations ，以及Rozemberczki等人提出的spatiotemporalgraphs等；NeurIPS’21数据和基准赛道带来了新数据集， MalNet可用于图分类，该数据集的平均图大小是15k节点以及35k边；ATOM3D可用于3D分子任务；RadGraph可用于从放射学报告中提取信息。由MichaelBronstein、JoanBruna、TacoCohen和PetarVeli?kovi?编写的几何深度学习原型书和课程，包含12个讲座和实践教程和研讨会。