生命的元宇宙,被AI给炸开了( 二 )


冷冻电镜及其图像
因此 , 使用AI的方法 , 加速对蛋白质结构的解析 , 分析其组成和功能 , 就成了生物界和医药界的争相推进的重要工作 。
ESMFold的“魔幻效果”
ESMFold、AlphaFold2和RoseTTAFold对多序列输入的蛋白质结构预测具有相当的准确度 。 但ESMFold突出优势在于 , 其计算速度比AlphaFold2快一个数量级 , 能够在更有效的时间尺度上探索蛋白质的结构空间 。
过去 , AlphaFold2和RoseTTAFold在原子分辨率蛋白质结构预测问题上取得了突破性成功 , 但依赖于使用多序列比对(MultipleSequenceAlignment , 简写为MSA)和相似蛋白质结构的模板来实现最优表现 。
生命的元宇宙,被AI给炸开了
文章图片
ESMFold模型具有比AlphaFold2更高的速度
ESMFold使用ESM-2学习的信息和表示来执行端到端的3D结构预测 , 特别是仅使用单个序列作为输入(AlphaFold2需要多序列输入) , 方便研究者在使用时通过模型缩放 , 将模型大小控制在数百万到数十亿量级参数 。 需要注意的是 , 随着模型大小的增加 , 可观察到预测准确性的持续提升(还是“越大越准”) 。
生命的元宇宙,被AI给炸开了
文章图片
ESM-2模型随着参数量升高精度升高
由于ESMFold的预测速度比现有的其他原子分辨率蛋白质结构预测模型快一个数量级 , 因此ESMFold可以帮助快速构建蛋白质结构数据库 。 使用ESMFold , 可以快速计算100万个预测结构 , 这些结构代表了蛋白质预测空间的不同子集 , 其中大多数没有注释的结构或功能 。
而且ESMFold的大部分高置信度预测与已知的实验结构的相似度都很低 , 这表明了通过AI计算获得的基因组蛋白的结构新颖性 。
值得注意的是 , 许多高置信度结构与UniRef90中的结构也具有低序列相似性 , 说明该模型具有超出其训练数据集的泛化能力 , 实现了基于结构的蛋白质功能预见能力 。
据此 , 研究人员认为 , ESMFold可以帮助理解那些超出现有认知的蛋白质结构 。
生命的元宇宙,被AI给炸开了
文章图片
ESMFold在单序列输入时预测精度明显好于AlphaFold2
虽然ESMFold速度很高 , 精度也不错 , 特别是在单序列输入的时候精度明显好于AlphaFold2 。 但我们也要看到 , ESMFold在多序列输入的情况下 , 其精度比AlphaFold2还是略有差距 。
ESMFold网络结构
与AlphaFold2模型类似 , ESMFold模型的架构也可以分为四部分:数据解析部分、编码器部分(FoldingTrunk)、解码器部分(StructureModule)、循环部分(Recycling) 。
ESMFold和AlphaFold2之间的一个关键区别 , 是使用语言模型表示来消除对显式同源序列(以MSA的形式)作为输入的要求 。
语言模型表示作为输入提供给ESMFold的折叠主干 。 通过将处理MSA的计算量大的FoldingBlock模块替换为处理序列的Tranformer模块来简化AlphaFold2中的Evoformer 。 这种简化或优化意味着ESMFold会比基于MSA的模型快得多 。
生命的元宇宙,被AI给炸开了
文章图片
ESMFold与AlphaFold2对比
在AlphaFold2和RoseTTAFold中使用MSA和模板会导致两个瓶颈 。
首先 , 可能需要基于CPU检索和对齐MSA和模板 。 这是由于AlphaFold2和RoseTTAFold不是二维序列嵌入状态 , 而是使用轴向注意力对应于MSA的三维内部状态进行操作 , 即使使用GPU , 这一计算的代价也不菲 。
相比之下 , ESMFold是一个完全端到端的序列结构预测器 , 可以完全在GPU上运行 , 无需访问任何外部数据库 。