腾讯刘伟:AI药物发现存在一个核心问题,即模型是否具备泛化能力( 四 )


我们在2019年就意识到这样的问题 , 发表了一个大规模分子预训练模型叫GROVER , 现在几乎这个领域的所有工作 , 都会引用当初我们在GROVER上做的成果 。
我们是国内最早在分子图上做预训练的 , 而这也是腾讯云深平台非常底层的技术 , 不管是在分子属性预测、还是蛋白质结构预测、还是抗体药物设计上 , 它都是非常底层的公共技术模块 。
不管是针对2D还是3D分子 , 都会基于embedding做特征提取 , 然后也是预训练+微调这样来用 , 也是行业内的一个范式 。
最后 , 就是我们今年最新的一个工作 。
我们在做AI辅助药物发现时 , 发现了这样一个问题 , 在A靶点(A场景)中训练的AI模型 , 会非常难以应用到B靶点(B场景)上做预测 。
这个其实就是OOD(out-of-distribution)问题 。 这个是机器学习自身的一个核心问题 , 现在也没能100%完全解决 。
为了验证我们模型的有效性 , 我们去做了一个名叫DrugOOD的开源框架 , 现在它也已经贡献给了行业和社区 。
腾讯刘伟:AI药物发现存在一个核心问题,即模型是否具备泛化能力
文章图片
我们会根据不同的domain把它做一个划分 , 比如按照骨架、实验assay、或者靶点区分 , 这样训练出来的模型就会非常不一样 。
这个过程中 , 我们实际上希望模型在不同场景具备一定的迁移能力 , 不然模型只能适合某一训练数据场景 , 这其实不是我们所希望的 , 因为这样的模型适应能力非常弱 , 没办法应用到新的问题上 。
在DrugOOD中我们会有一个数据Curator的模块 , 之后我们会做一个分割 , 这样在训练不同模型时 , 我们就可以按照不同的标注去自动写一个配置文件 , 测定我们新训练的模型在不同的蛋白质家族上不同的效果 , 这样对模型的泛化性就能有一个非常明确的认识 。
—完—
腾讯刘伟:AI药物发现存在一个核心问题,即模型是否具备泛化能力】量子位QbitAI·头条号签约