腾讯刘伟:AI药物发现存在一个核心问题,即模型是否具备泛化能力( 三 )


第二块和第三块 , 就是大算力、大数据方面的能力 。
我们知道化学空间非常大 , 以10的n次方为计数 , 在这么大的化学空间中发现药物分子非常不容易 。
通常的做法是借鉴自然语言处理或者图像视觉技术发展而来的大模型预训练 , 使得模型本身能够理解化学空间的语言 , 比如像理解SMILES、3D分子结构 , 甚至是理解蛋白质结构 。
所以这方面会面临针对大模型、大算力的强劲需求 , 我们在这一块也做了非常多的工作 , 后面会详细介绍 。
最后一块 , 我们基于腾讯在算法算力上的能力 , 将AI与物理、化学做了一个结合 , 这是团队新生长出来的能力 。
我们认为 , AI纯粹只靠数据驱动是不足够的、缺乏可解释性的 , 做出来模型之后 , 它有时也会因为数据稀疏、漂移产生一些问题 。 如果能够结合物理、化学知识进入AI算法模型 , 就能够非常好地反映在化学、或是底层物理方面的一些特征和规律 。 这样做出来的AI模型 , 不仅过拟合风险更低 , 实际应用中也有非常好的可解释性 , 这也是我们最近几年重点发展的一个能力 。
腾讯刘伟:AI药物发现存在一个核心问题,即模型是否具备泛化能力
文章图片
我们再展开给大家分享一下这几块内容 。
第一块是AI+量子化学方面的算法能力 。
我们开发了一系列用AI方法做量子化学计算的算法 。 量子化学是一个非常广泛而深刻的技术领域 , 它从比较低精度的经验性计算到非常高精度的多体计算 , 都已经开发出了很多方法 。
对于现存最高准确度的 , 例如全组态量子化学计算 , 它需要非常大的计算量 , 这对像药物分子、或者说drug-like这样的分子是不太可行的 , 只能被迫使用比较低精度的方法 。
针对这样的痛点 , 我们做了一个叫DeepQC的框架 , 可以在以秒为量级的时间单位下 , 达到高精度大基组DFT的计算结果 。
我们还把DeepQC用在像晶体、催化体系上 , 也取得了非常好的效果 , 特别值得一提的是 , 在今年的催化剂相关比赛OpenCatalystChallenge2022上我们还拿了冠军 。
这也是基于我们多年以来对AI和量子化学结合的探索基础之上做出的工作 。
这样一套方法 , 我们原本只是在有机分子上 , 我们看到将其推广到催化的表面体系 , 以及晶体的周期体系 , 它仍然可以非常高精度、非常快速地完成任务 , 它的速度比用量子化学模拟要快一个数量级 。
第二块是我们在图卷积神经网络方向的技术发展 。
腾讯以前做的很多图卷积神经网络工作在社交网络方面 , 但我们把它拓展到蛋白质结构上 , 发现也有非常好的效果 。
实际上不管是蛋白质 , 还是这些配体和药物体系里面 , 它其实都有非常好的层次结构 , 和社交网络非常相似 。
蛋白质通常被分为几层结构 。 从最底层的原子、甚至电子 , 再到氨基酸 , 氨基酸又组成蛋白质多肽链 , 再到上面三级结构或四级结构 , 如果在各种不同的层级用不同神经网络建模方法 , 就可以把它做得更好 。
腾讯刘伟:AI药物发现存在一个核心问题,即模型是否具备泛化能力
文章图片
我们把层次图卷积神经网络用在抗体结构预测上 , 效果超过了AF2、IgFold等模型的结果 , 目前相关论文也已经被NeurIPS收录 , 也已经在arXiv上公开 。
第三块是大分子预训练模型 。
我们刚才提到 , 药物化学空间非常大 , 但是具体到某个药物研发项目中时 , 数据非常少甚至没有 , 所以你必须解决过拟合的问题 。
我在做某一个项目、某一个靶点的时候 , 它的数据可能就只有几百甚至几十个 , 这种情况下如果没有大数据作为基础 , 是非常容易过拟合的 。