Michael Bronstein从代数拓扑学取经,提出了一种新的图神经网络计算结构!( 三 )


高阶交互图表根据定义是二元的(“成对的”) , 不能表示涉及两个以上对象的关系和交互 。 在对以高阶相互作用为特征的复杂系统进行建模时 , 这可能是一个问题:例如 , 化学反应中的三种反应物可能同时发生相互作用 。 在细胞复合体中 , 这种情况可以通过两个细胞(即“填充”三角形)连接反应物来编码 。 因此 , 模型的计算流程适应高阶交互的存在 。
Michael Bronstein从代数拓扑学取经,提出了一种新的图神经网络计算结构!
文章图片
图注:细胞Weisfeiler-Lehman(CWL)测试 , 将经典的WL测试扩展到细胞群 , 算法的每一步都完美地散列了相邻单元的颜色(可能有不同的维度) 。
表现力信息传递GNN的表达能力受Weisfeiler-Leman(WL)图同构测试限制 , 众所周知 , WL无法检测某些图子结构 , 例如三角形或循环 , 即使是非常简单的非同构图也无法区分 。
据此前的论文显示(论文地址:https://arxiv.org/abs/2103.03212;https://arxiv.org/abs/2106.12575) , WL测试(CWL)的细胞版本可用于测试细胞复合物的同构性 。 当这个新测试与上面描述的图提升过程相配时 , 可以发现 , 它能比WL测试区分更大的图类 。 因此 , 在一定条件下 , 拓扑信息传递过程继承了该测试的优点 , 相比标准GNN提高了表达能力 。
不足、过度平滑和瓶颈信息传递的GNN需要n个层来使相距n个跳数的节点进行通信 。 当仅使用几层 , 以至于相距较远的节点无法交换信息时 , 这种现象称为未达到 。
相比之下 , 使用太多层可能会导致过度平滑 , 且信息可能会在图的结构瓶颈中丢失 。
单元复合体可以缓解这些问题 , 因为由高维单元诱导的更丰富的邻域结构 , 在可能相距很远的节点之间创建了捷径 。 因此 , 信息只需包含一些计算步骤来传播 , 就是有效的 。
Michael Bronstein从代数拓扑学取经,提出了一种新的图神经网络计算结构!
文章图片
图注:GNN需要很多层才能使相距很远的节点进行通信(左) 。 高维单元通过创建捷径来改变空间的底层拓扑结构(右) 。 这允许远程节点在几个信息传递步骤中交换信息 。
分层建模拓扑信息传递执行的计算是分层的 , 信息从低维单元流向高维单元并返回 , 可看作是“垂直”(和可区分)池的一种形式 , 而非标准图神经网络中的“水平”池 。 这保持了“压缩”图区域的归纳偏差 , 而不会忽略输入图的会损害基于GNN池性能的细粒度信息 。
Michael Bronstein从代数拓扑学取经,提出了一种新的图神经网络计算结构!
文章图片
图注:拓扑信息传递允许信息存在于不同维度的单元之间分层
域对齐某些应用自然与细胞复合物的结构一致 , 例如 , 分子的原子、键和化学环可以表示为0-cell、1-cell和2-cell , 分子的物理结构和细胞的复杂表示之间的直接对应 , 允许了拓扑信息传递利用上述特性 , 这些表示也展示了拓扑信息传递在分子特性预测任务中所实现的最先进结果 。
其他表现良好对齐的应用程序 , 可能包括计算机图形应用程序中的离散流形(网格)、社交网络(派系特别重要)或空间图 , 例如谷歌地图(街道间的街区可被自然地表示为“立方”细胞) 。
Michael Bronstein从代数拓扑学取经,提出了一种新的图神经网络计算结构!
文章图片
图注:咖啡因子被建模为二维细胞复合物
2拓扑学和微分几何学的结合拓扑信息传递中 , 保留了许多与代数拓扑学、微分几何学的有趣联系 , 允许使用迄今为止仍在图和几何深度学习中没有得到充分开发的数学工具 。
洞代数和方向等值在代数拓扑中 , 通常使用有向单纯复形 , 其中每个单纯形存在任意“定向” , 例如 , 我们选择每条边中的一个源节点和一个目标节点 , 并对每个三角形选一个遍历其节点的顺序 。 一旦选定方向后 , 就可对复形执行有趣的代数算子 , 例如通过“边界算子”计算某些单纯形的边界 。 这些代数运算也可以用来在单纯复形中找到“洞”——没有边界但不在其他事物边界上的区域 。 其背后 , 持久同源依靠这些计算来检测拓扑特征 。