四两拨千斤!OPPO用“轻巧”模型角逐超大规模图网络,入选KDD Cup四强

四两拨千斤!OPPO用“轻巧”模型角逐超大规模图网络,入选KDD Cup四强
文章图片
近年来 , 随着图结构数据场景的使用越来越广泛 , 图机器学习也受到了非常多的关注 。 如今 , 动辄亿级节点或者百亿级边的大规模数据挑战正向社会袭来 , 可面向超大规模图谱的图机器学习研究更是少之又少 。
来自OPPO研究院数据智能研究部的拓扑实验室成员为此集结 , 在KDDCup2021中的MAG240M-LSC比赛中提出了能轻巧应对超大规模异构网络的MPLP方案 , 此方案不仅简化了模型复杂度 , 而且具有很高的扩展性 。
该项技术方案最终获得了第四名的好成绩 。
比赛相关技术文档和代码已经开源:
https://github.com/qypeng-ustc/mplp
由于图结构数据在各个场景中得到越来越多的应用 , 包括社交网络、推荐搜索、知识图谱、医药研发、量子物理等 , 图机器学习受到了非常多的关注 。 另一方面 , 动辄亿级节点或者百亿级边的大规模图数据正逐渐带来新的挑战 , 而目前面向超大规模图谱的图机器学习研究较少 。
2021年 , 斯坦福大学等相关的团队在KDDCup2021开展了大规模图网络比赛 , 直击当前图学习研究的痛点 。 一方面KDD(KnowledgeDiscoveryandDataMining)作为世界数据挖掘领域最高级别的学术会议 , 吸引了全球顶尖研究机构前来展现“武功” , 另一方面组织者斯坦福大学的JureLeskovec领导的OGB团队作为图神经网络权威 , 其赛题质量自然也能够保证 。
四两拨千斤!OPPO用“轻巧”模型角逐超大规模图网络,入选KDD Cup四强
文章图片
比赛网址:
https://ogb.stanford.edu/kddcup2021/
高质量的赛题加上优秀的竞争对手 , 角逐出来的技术方案备受业界关注 。 在节点预测赛道中 , OPPO研究院数据智能研究部的拓扑实验室获得了第四名的成绩 。 如果细究其解决方案 , 可以发现OPPO提出的MPLP模型更加轻巧 , 计算开销更小 , 也更具扩展性 。
1赛题介绍
此次比赛的全称是“OGBLarge-ScaleChallenge” , 由KDDCup2021和OpenGraphBenchmark官方联合举办 , 全球共有500多个队伍参赛 。
四两拨千斤!OPPO用“轻巧”模型角逐超大规模图网络,入选KDD Cup四强
文章图片
比赛共发布三个数据集 , 分别对应三个赛道 。 其中MAG240M-LSC是一个异构的学术图 , 其任务是预测位于异构图中的论文的学科类别;WikiKG90M-LSC是一个知识图谱 , 其任务是估算缺少的三元组;PCQM4M-LSC是量子化学数据集 , 其任务是预测给定分子的重要分子特性 。
对于每个数据集 , 赛事的组织者都经过精心的设计 , 以求参赛者在任务上提交的算法能够直接影响相应的应用 。
四两拨千斤!OPPO用“轻巧”模型角逐超大规模图网络,入选KDD Cup四强
文章图片
三个数据集以及任务比较
其中节点预测赛道中的MAG240M-LSC数据集是从MicrosoftAcademicGraph(MAG)中提取出的异构学术网络数据 , 总节点数244,160,499 , 总边数1,728,364,232 , 包含有1.2亿paper、1.2亿author、2.6万institution三种类型节点以及cites、writes等边类型 , 且paper的类别多达153种 , 压缩的原始数据集大小167GB , 是这次比赛中数据量最大、结构最复杂的任务 。
四两拨千斤!OPPO用“轻巧”模型角逐超大规模图网络,入选KDD Cup四强
文章图片
基于以上 , 赛事主办方给参赛者的任务是:设计模型 , 预测论文所属的类别 , 准确率越高越好 。 比赛要求参赛者用2018年及之前的论文作为训练集 , 2019年发表的论文作为验证集 , 2020年的论文作为测试集 。
此外 , 比赛仅有一次最终提交机会 , 也在某种程度上增加了任务难度 。
3月15日~6月8日 , 经过接近三个月的激烈竞争 , 主办方根据准确率最终选出了六只优胜队伍 , 其中第一名的准确率是0.7549 , 第6名的准确率为0.7353 , 相差仅不到0.02 。 可以看出 , 顶级选手们的解决方案都非常优秀 , 在准确率方面差距并不大 , 只有综合考虑计算开销、模型复杂度才能看出谁能最大程度的适用工业场景 。