四两拨千斤!OPPO用“轻巧”模型角逐超大规模图网络,入选KDD Cup四强( 三 )


四两拨千斤!OPPO用“轻巧”模型角逐超大规模图网络,入选KDD Cup四强
文章图片
与基准比较结果
为了抑制过拟合 , 团队在训练中采用了5-fold交叉验证的方法 , 并进一步的采样8个不同的随机种子来初始化模型 , 最终的预测结果来自40个模型的ensemble 。 并且 , 通过将数据集往前推1年 , 将2018年数据作为验证集 , 将2019年数据作为测试集 , 验证了这种集成方式的有效性 。 MPLP和其他较强的baseline比较结果如上图所示 。
3为什么参加这个比赛?
KDDCup全称为国际知识发现和数据挖掘竞赛 , 自1997年开始 , 由ACM协会SIGKDD分会每年举办一次 , 目前是全球数据挖掘领域最有影响力的赛事 , 其所设比赛题目具有相当高的实际意义和商业价值 。
OPPO拓扑实验室成立仅一年 , 专门从事图学习研究 。 目前在团队规模、技术积累、研发投入等方面仍处于初级阶段 。 拓扑实验室表示 , 这种将深度学习和图论相结合处理图结构数据的方法 , 既保留了深度学习的优势 , 又拓展了其应用边界 , 与当前OPPO面向的落地场景十分契合 。
通过这场赛事 , OPPO拓扑实验室证明了自己在图网络方面的研究成果 , 也首次在国际平台展现了不俗的技术实力 。 其实从更大范围来讲 , 这场比赛不仅对于所有参赛机构来说是更加公平可信的竞技场 , 也是引导学术界走向超大规模图谱研究的契机 。
四两拨千斤!OPPO用“轻巧”模型角逐超大规模图网络,入选KDD Cup四强】ImageNet毋庸置疑推动了计算机视觉的发展 , 而OGB-LSC已经展现了图学习发展的一个趋势:技术方向从“真空”学术研究转向实际工业场景 。 毕竟 , 任何前沿技术研发都是为产业化应用服务的 。 在学术界 , 虽然图神经网络的论文越来越多 , 但这些实验方法与现实场景的应用仍相距甚远 , 很多论文所使用的实验数据 , 与工业界真实场景的数据差距非常大 , 导致很多实验效果在现实场景中无法复现 。
拓扑实验室团队表示 , 这次比赛所使用的三个数据集是基于真实场景的超大规模图谱数据 , 具有相当的权威性 , 通过这些数据所获得的实验结果和成绩也更能让人信服 。
4OPPO为何看中“图网络”?
深度学习方法被应用在提取欧氏空间数据的特征方面取得了巨大的成功 , 但许多实际应用场景中的数据是从非欧式空间生成的 , 传统的深度学习方法在处理非欧式空间数据上的表现却仍难以使人满意 。
最近几年 , 研究人员结合传统深度学习和图论 , 设计了用于处理图数据的图学习技术 , 并进入一个爆发式的增长阶段 。 通过学术界和工业界的共同努力 , 图学习技术已经被成功应用到安全风控、搜索推荐、姿态估计和知识图谱等实际应用场景 , 并达到一定的成熟度;同时研究人员也在探索更多的应用场景 , 比如:因果推理 。 通过对新技术的长期探索和应用 , 帮助产品和服务提升用户体验 , 对OPPO至关重要 , 也是OPPO品牌信仰“科技为人 , 以善天下”的内在诠释 。
值得一提的是 , 图算法呈现的“结构化知识+跨领域”的特征 , 正好与清华大学的张钹院士提出的以“知识+数据双轮驱动”为核心的第三代人工智能不谋而合 。
作为最具潜力的新型技术路线之一 , 图网络除了基础理论方面的创新外 , 更重要的是拓展更多的应用场景 。 不过 , 二者的关系是相辅相成的——有了理论上的突破 , 图神经网络的效果才能更强大 。
关注OPPOTECH公众号 , 查看后续更多论文解读 , 后台回复“KDDCup2021”即可查看KDD相关技术报告 。 参与互动答题 , 还有机会免费领取OPPO送出的大礼哦!