腾讯刘伟：AI药物发现存在一个核心问题，即模型是否具备泛化能力( 四 ) 萧箫整理自MEET2023量子位|公众

我们在2019年就意识到这样的问题，发表了一个大规模分子预训练模型叫GROVER ，现在几乎这个领域的所有工作，都会引用当初我们在GROVER上做的成果。
我们是国内最早在分子图上做预训练的，而这也是腾讯云深平台非常底层的技术，不管是在分子属性预测、还是蛋白质结构预测、还是抗体药物设计上，它都是非常底层的公共技术模块。
不管是针对2D还是3D分子，都会基于embedding做特征提取，然后也是预训练+微调这样来用，也是行业内的一个范式。
最后，就是我们今年最新的一个工作。
我们在做AI辅助药物发现时，发现了这样一个问题，在A靶点（A场景）中训练的AI模型，会非常难以应用到B靶点（B场景）上做预测。
这个其实就是OOD（out-of-distribution）问题。这个是机器学习自身的一个核心问题，现在也没能100%完全解决。
为了验证我们模型的有效性，我们去做了一个名叫DrugOOD的开源框架，现在它也已经贡献给了行业和社区。

文章图片
我们会根据不同的domain把它做一个划分，比如按照骨架、实验assay、或者靶点区分，这样训练出来的模型就会非常不一样。
这个过程中，我们实际上希望模型在不同场景具备一定的迁移能力，不然模型只能适合某一训练数据场景，这其实不是我们所希望的，因为这样的模型适应能力非常弱，没办法应用到新的问题上。
在DrugOOD中我们会有一个数据Curator的模块，之后我们会做一个分割，这样在训练不同模型时，我们就可以按照不同的标注去自动写一个配置文件，测定我们新训练的模型在不同的蛋白质家族上不同的效果，这样对模型的泛化性就能有一个非常明确的认识。
—完—
【腾讯刘伟：AI药物发现存在一个核心问题，即模型是否具备泛化能力】量子位QbitAI·头条号签约