百度计算生物研究登Nature子刊!结果超斯坦福MIT,落地制药领域( 二 )


文章插图
还有像顺铂和反铂(二氯二氨合铂),顺铂是一种流行的抗癌药物;但反铂有毒却没有抗癌活性。
既然如此,那就来看看这项研究是如何解决的。
首先来看图神经网络,本次研究人员提出了一种GeoGNN。每个分子的输入包含两个图,可同时模拟原子、键和键角的影响。
第一个图,即二维结构图,也叫做原子-化学键图,仍以原子为节点,键为边。
第二个图,化学键-键角图,则是以键视作节点,键角视作边。
百度计算生物研究登Nature子刊!结果超斯坦福MIT,落地制药领域
文章插图
GeoGNN经过多轮迭代学习原子和键的表征向量,为了连接两个图,化学键作为每一轮迭代中图G和图H的桥梁进行信息互通。
最后通过汇集原子表征得到分子表征,用来化合物性质预测。
为了更好的学习分子空间知识,除了以几何信息作为输入,进一步地,研究团队设计了多项自监督学习任务。
比如,预测化学键的长度、化学键组成的键角、两两原子之间的距离。
百度计算生物研究登Nature子刊!结果超斯坦福MIT,落地制药领域
文章插图
其中,键长和键角描述化合物的局部结构,两两原子之间的距离更关注化合物的全局结构。
局部结构的,就随机挑选某个原子中心(图中的N)的子图进行遮盖,预测化学键的键长和之间的键角。
全局结构的,则是预测原子距离矩阵中的元素。
预训练过程中,团队从一个公开数据集Zinc1522中,抽取2000万个未标记的分子来训练GeoGNN。
其中90%的分子用来训练,其余分子进行测试。
最终结果显示,在当前公认化合物性质预测数据集MoleculeNet21的15个基准数据集中,与现有方法比较,得到了14个SOTA结果。
百度计算生物研究登Nature子刊!结果超斯坦福MIT,落地制药领域
文章插图
其中,像与毒性相关的数据集tox21、toxcast,以及HIV病毒数据集,GEM的表现比其他模型要好,比如腾讯的GROVER、斯坦福的PretrainGNN以及MIT的D-MPNN等。
总体而言,百度的GEM模型,在回归任务上相对现在方法提升8.8%,在分类任务上相对提升4.7%。
可以看到,在回归数据集上的结果比分类数据集上的改进更大。团队猜测,因为回归数据集的重点是预测量子化学和物理化学特性,而这与分子几何结构高度相关。
进一步地,团队研究了GeoGNN在没有预训练的情况下,在回归数据集上的表现有何影响。
结果与现有的GNN架构比较,其中包含常用GNN架构、结合三维分子几何的架构以及分子表征架构。
百度计算生物研究登Nature子刊!结果超斯坦福MIT,落地制药领域
文章插图
与以往最优结果相比,总体改进7.9%。
此外,在自监督学习方法上的消融实验也证明了基于空间结构的自监督学习方法的有效性。
百度计算生物研究登Nature子刊!结果超斯坦福MIT,落地制药领域
文章插图
该项目已经在GItHub上开源。
据介绍,除了在学术期刊亮相外,研究团队透露,这项研究在药物研发领域已经实现商业化落地,在合作伙伴的早期药物筛选管线上得到应用。
未来,这项技术还有更多可预见的应用价值,比如像化合物成药性预测、小分子的药物筛选、药物联用等具体场景。
再拓展一点,没准儿在蛋白质、核酸等领域,也能构建基于大分子的表征模型,有助于更多药物研发。
百度计算生物研究登Nature子刊!结果超斯坦福MIT,落地制药领域
文章插图
事实上,百度这次在Nature子刊上的亮相,带来计算生物领域的新进展。
情理之外,却是意料之中。
不为大多数人所知道的是,百度在计算生物上的探索,其实早已开启。