生命的元宇宙,被AI给炸开了( 三 )


例如在单个NVIDIAV100GPU上 , 使用较少参数的ESMFold在14.2秒内对具有384个残基的蛋白质进行预测 , 可比单个AlphaFold2模型快6倍 。 而在较短的序列上 , 我们甚至看到了约60倍的改进 。
速度的数量级提高是ESMFold优于AlphaFold2的独特优势 , 使我们能够在比现有方法更短的时间尺度内构建大量预测结构 。 考虑到可用序列数据的规模 , 这一点尤其重要 。
例如 , AlphaFold2蛋白质结构数据库的初始版本发布时具有约36万个预测结构 , 截至2022年7月则包含约99.5万个预测 , 这比目前许多蛋白质序列数据库小几个数量级 。
数据解析部分与解码器的深度分析
数据解析部分用于输入序列和数据库的解析 , 为编码器提供输入 。
在AlphaFold2模型中 , 数据解析部分使用了氨基酸序列数据库和结构数据库 , 分别用于相近序列的比对和结构模板的配对 。
生命的元宇宙,被AI给炸开了
文章图片
AlphaFold2多序列比对示意
生物信息学的基础是基于这样的一个假设:序列相似 , 结构相似 , 功能相似 。 一般认为相近的序列或者相近的结构会衍生出相近的功能域 。
1)序列数据库被用于多序列比对(MultipleSequenceAlignment , MSA) , 即在序列数据库中检索与输入序列接近的数据库序列 。
2)结构数据库则用于结构匹配 , 寻找与输入序列的结构接近的已知结构模板 。
然后序列比对与结构比对的结果作为输入传输给编码器部分 。
生命的元宇宙,被AI给炸开了
文章图片
ESMFoldFoldingBlock与AlphaFold2Evoformer结构对比
解码器部分即FoldingTrunk , 一共48层 。
ESMFold与AlphaFold2的一个关键区别是 , ESMFold使用语言模型表示 , 消除了对明确的同源序列(以MSA的形式)作为输入的需要 。
ESMFold通过用一个处理序列的Transformer模块取代处理MSA的计算昂贵的网络模块 , 简化了AlphaFold2中的Evoformer 。 这种简化意味着ESMFold的速度大大提高 , 远高于基于MSA的模型 。
结语
作为蛋白质结构预测大模型 , ESMFold获得准确原子分辨率结构预测的推断(Inferenc)速度比AlphaFold2提高了约一个数量级 。 特别是在实际计算中 , 这一速度优势表现的更加明显 。 这是由于ESMFold削减了搜索多序列来构建MSA的计算量 。
生命的元宇宙,被AI给炸开了
文章图片
ESMFold用于探索宏基因组结构空间
推断速度优势使得基于计算有效映射大型宏基因组序列数据库的结构空间成为可能 。
除了用于识别远同源性外 , ESMFold还可以被用于进行快速准确的结构预测 , 并在实际时间尺度内获得数百万个预测结构 , 进一步帮助发现新的蛋白质结构和功能 。 这相当于在使用AI计算来构建生命的“元宇宙” 。
150亿参数大模型 , 10x倍速度提升 。 虽然MetaESMFold精度上没能做到全面“碾压”AlphaFold2 , 但毕竟“唯快不破” , 对于蛋白质结构解析与预测、构建大型宏基因组结构数据库有着巨大的推动作用 。
论文链接:https://doi.org/10.1101/2022.07.20.500902
参考文献:ZemingLinet.al. , Languagemodelsofproteinsequencesatthescaleofevolutionenableaccuratestructureprediction , https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1
Jumper , J.etal. , HighlyaccurateproteinstructurepredictionwithAlphaFold , Nature(2021):1-11.
生命的元宇宙,被AI给炸开了】本文来自微信公众号:智东西(ID:zhidxcom) , 作者:陈巍